用了五年的希捷酷狼 4T 终于搞的存储池损毁了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in，那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动，会导致账号被禁用。

这是一个创建于 385 天前的主题，其中的信息可能已经有所发展或是发生改变。

希捷 Iron Worlf 4T ，先后在群晖 DS916 、DS918 、DS1821 上面服役，从去年开始就报坏扇区，把重要数据都转移走了，只用于备份和视频监控，之后坏扇区缓慢增加快到 100 ，今天中午报存储池损毁，总共用了 44963 小时（约 5 年）硬盘情况

SMART 信息如下：

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST4000VN008-2DR166
Firmware Version: SC60
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5980 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)


Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME                                                   FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate                                              0x000f   100   064   044    Pre-fail  Always       -       191296
  3 Spin_Up_Time                                                     0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count                                                 0x0032   099   099   020    Old_age   Always       -       1438
  5 Reallocated_Sector_Ct                                            0x0033   100   100   010    Pre-fail  Always       -       72
  7 Seek_Error_Rate                                                  0x000f   090   060   045    Pre-fail  Always       -       942800017
  9 Power_On_Hours                                                   0x0032   049   049   000    Old_age   Always       -       44967 (166 64 0)
 10 Spin_Retry_Count                                                 0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count                                                0x0032   099   099   020    Old_age   Always       -       1280
184 End-to-End_Error                                                 0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect                                               0x0032   097   097   000    Old_age   Always       -       3
188 Command_Timeout                                                  0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes                                                  0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel                                          0x0022   069   058   040    Old_age   Always       -       31 (Min/Max 31/38)
191 G-Sense_Error_Rate                                               0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count                                          0x0032   100   100   000    Old_age   Always       -       94
193 Load_Cycle_Count                                                 0x0032   100   100   000    Old_age   Always       -       1715
194 Temperature_Celsius                                              0x0022   031   042   000    Old_age   Always       -       31 (0 8 0 0 0)
197 Current_Pending_Sector                                           0x0012   100   099   000    Old_age   Always       -       24
198 Offline_Uncorrectable                                            0x0010   100   099   000    Old_age   Offline      -       24
199 UDMA_CRC_Error_Count                                             0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours                                                0x0000   100   253   000    Old_age   Offline      -       44938h+12m+42.758s
241 Total_LBAs_Written                                               0x0000   100   253   000    Old_age   Offline      -       41194810487
242 Total_LBAs_Read                                                  0x0000   100   253   000    Old_age   Offline      -       734699003862

看了下主要是 Reported_Uncorrect 、Offline_Uncorrectable 有计数，打算先用群晖做一个 Secure Erase 看看能否挽救。

28 条回复 • 2023-12-26 03:01:44 +08:00

yushiro

2023-12-16 16:08:44 +08:00 via iPhone

这个只能听天由命，我提前 wd 红盘，7x24 用了好几年，报 smart 警告，就找商家售后了，5 年内质保。

Autonomous

2023-12-16 16:15:04 +08:00

@yushiro 红盘还有 5 年质保，这么香！我这 IronWolf 只有 3 年质保，所以现在选择了银河 Exos

FlytoSirius

2023-12-16 16:58:48 +08:00

怎么没见什么人用东芝硬盘 ?

kneo

2023-12-16 20:29:34 +08:00 via Android

五年就坏了？

Autonomous

2023-12-16 20:38:53 +08:00

@kneo 是的，一共 4 块希捷狼盘，同时期买的，坏了 1 块，还有 3 块正常

YsHaNg

2023-12-16 20:49:28 +08:00 via iPhone

坏扇区开始出现的小时数？

princeofwales

2023-12-16 20:50:27 +08:00

我的酷狼也是报 8 个坏扇区，数量一直没有增加就没管
那块盘上面都是下载的电影，数据不重要

asdgsdg98

2023-12-16 20:50:46 +08:00

还是买企业级吧，消费级越做越差了

northbrunv

2023-12-16 21:06:58 +08:00 via Android

酷狼寿命不到银河一半

maleclub

2023-12-16 21:21:21 +08:00

17 年美亚直邮买了几个 WD 8TB ，现在还在群晖 916 里面服役，是真的耐操，没跑监控，也没有坏区。

![]( https://imgur.com/a/Tyf24Km)

maleclub

2023-12-16 21:23:14 +08:00

有 56000 个小时了

metrics

2023-12-16 21:43:44 +08:00

羡慕 OP 的 8 盘位！
现在在用 920 ，再换也是准备直接上 8 盘位了。

JoeoooLAI

2023-12-16 22:41:08 +08:00

五年确实也差不多了，这个真的有点讲运气，两块 4t 酷狼也是 5 年了，0 坏扇区，另外一个买了两年就出现几个坏扇区，目前还没增长，年头买了 hc550 ，看看企业级会不会好点，看看能撑多久。

目前手头上存活最长命的硬盘是两块 3tb 红盘跑 raid1 的 WD30EFRX-68EUZN0, 截至现在 76313 小时，0 bad sector

感觉只要供电稳，关掉自动启停，持续运行基本上 5 年还是问题不大的。

zealic

2023-12-16 22:56:16 +08:00

我买的酷狼 8T 有 4 个盘同一批次的 3 个盘前两个月一起坏了，还好 RAID10 勉强数据无问题，寿命两年。
JD 报修换了三个新的。
希捷确实故障率是最高的，不管是实际还是数据统计；另一个 NAS 的 WD 3T 红盘 8 年了都没出问题。

楼主没开 RAID 也是真的勇。

xinmans

2023-12-16 23:26:12 +08:00 via iPhone

配置个 zfs ，随便坏，换就是了，不影响数据

daimaosix

2023-12-17 00:33:10 +08:00 via Android

@xinmans zfs 这么牛逼呢，坏了数据不丢吗

token10086

2023-12-17 00:41:07 +08:00

我京东买的，3 年坏了给免费换新了。很香

maleclub

2023-12-17 01:28:56 +08:00 via Android

不管是监控还是 nas ，上 UPS 也是很重要。我另外几块 Wd 4TB 紫色监控盘，16 年下半年在 JD 买的，24 小时不间断跑到现在也没坏....体质好也可能，运气好也有可能，注意断电保护也是嘎嘎重要，施耐德 UPS3-4 年左右自己动手换一次铅酸电池也才 80~110 左右的费用。

ltkun

2023-12-17 06:19:40 +08:00 via Android

@daimaosix 配个 raidz3 可以坏三块不丢数据我现在系统就这么玩主要配置灵活各种高级玩法不如扩容都不需要停机毕竟是给服务器用的

Autonomous

2023-12-17 09:04:56 +08:00

@YsHaNg 不太记得了，一年多以前就出现坏扇区，回复不好发图，我文字敲一下：
-----
2023 年坏扇区数（累计量）：
一月 64
二月 64
三月 64
四月 64
五月 72
六月 72
七月 136
八月 120
九月 136
十月 264
十一月 232
十二月 80 → 硬盘损毁
-----

感觉比较奇怪，这个数字总体来看是增长的，但是中途几个月还能减少，很神奇。

Autonomous

2023-12-17 09:12:34 +08:00

@princeofwales 是的，避免在这块硬盘上存储重要数据
@asdgsdg98 以后都选择企业级，噪音大没关系已经放玄关去了

@northbrunv 听说酷狼就是银河的降级盘（次品）

@maleclub 都靠运气

@metrics 8 盘位基本就一步到位了，不折腾，但是插满真的费电
@JoeoooLAI 一直都有 UPS ，我开始 2 年还用自动休眠，后来才关掉
@zealic 有一种说法是，次品容易集中在某个批次一起出场，然后被一并购买，寿命也差不多同时耗尽，所以 RAID5 重建有一定失败率。我这个不开 RAID 是因为一年前就报坏扇区了，重要数据转移走然后踢出 RAID

@maleclub 一直都用 APC-BK650

asyqm

2023-12-17 17:48:49 +08:00

@Autonomous 感觉上即便是次品某个批次，但是如果你是 4/8 个，HDD 同一时间（比如在一个月内）同时损坏的几率还是很少的。另外，HDD 跟 SSD 不一样，你说的寿命耗尽应该是指 SSD 。HDD 很多服役上 10 年的，理论上他没有寿命耗尽这个说法。

zealic

2023-12-17 19:15:56 +08:00

@Autonomous 是的，但是消费品还是太容易买到同批次，即便非同批次也有概率同时坏，所以一般最好的做法是买相同容量的不同品牌的盘来组 RAID 。

xinmans

2023-12-17 22:03:38 +08:00 via iPhone

@ltkun 你好奢侈，我 8 盘位，raidz2 ，16T*8 ，可用空间 100T

JoeoooLAI

2023-12-18 01:53:54 +08:00

@Autonomous 同批次寿命耗尽的这个说法只存在于理论上，毕竟我跟过的服务器，硬盘肯定都是一次采购好的，也真的没出现过一块硬盘坏了以后在同一个月就跟着有另外一块盘坏的情况，当然也可能是我样本量不够多，而且都是 OEM 盘，手上管理的也不过百台。

Raid5 有两个风险，一个是 URE 风险，就是重建时其中一块硬盘有坏块不可读导致重建失败，其实 Raid1 也会存在的，除非你是两块以上镜像。第二就是重建时别的盘崩掉，毕竟重建的时候其他盘都是全力工作的。

如果楼主数据很重要且盘位足够，那肯定 raid6 实际，毕竟硬盘越大风险也是越大的。当然有额外一台机器备份那就更好了。

也不太赞同完全不做 Raid ，毕竟能保持服务在线即使是对于个人家庭用户来说还是很舒服的，毕竟不做 raid ，每次出事都要慢慢倒备份，倒备份的时候又炸一次那是真的心态崩了，Raid 即使有众多缺点到现在还有人用肯定是有道理的。

虽然现在数据中心都开始往单盘闪存超融合去做存储，但人家机器节点规模可不是家里放得下的，所以还是老老实实 Raid + 备份，即使是买个 usb 硬盘盒额外装备份盘也好。

shirasu

2023-12-21 21:34:39 +08:00

@xinmans #24 可以顺便问一下使用的是什么系统吗？

xinmans

2023-12-22 11:01:05 +08:00 via iPhone

@shirasu unraid 和 truenas scale 都支持 zfs

inorobot

2023-12-26 03:01:44 +08:00

之前用的 DS918+，有块盘经常提示重新连接，后来发现清一下灰就好了，感觉可能是接口没有接好，以及 NAS 风道攒灰太大了，现在定期用吸尘器洗一下，换盘的时候把接口也都刷一下，基本后来没遇到提示重新连接数了