引用自
http://antbsd.twbbs.org/~ant/wordpress/?p=592
從 Google 身上學到硬碟故障的經驗
2007 年 2 月,Google Lab 上出現了一篇關於硬碟故障的經驗分享。「Failure Trends in a Large Disk Drive Population」,論文原文下載在此(PDF)。
這篇研究的對象是,十萬台 PATA/SATA, 5400~7200 rpm, 80~400GB 的硬碟。研究期間為 2005年12月 ~ 2006年8月。
Vendor MTBF and Google AFR
Mean Time Between Failure(MTBF) 是硬碟廠商提供的硬碟壽命參考數據。如果廠商規格提供 300,000 MTBF,則可以預期在大量的同型硬碟中,有一半的數量會在使用 300,000 小時前壞掉。但是,MTBF沒有告訴我們,剩下的硬碟還能運作多久。
理想中,如果我們有 600,000 顆 300,000 MTBF 的硬碟,會預期每個小時就會壞掉一顆。一年中,就有 8,760顆硬碟壞掉,換算成 Annual Failure Rate (AFR) 的話,就是 1.46% (8,760 / 600,000)。
Manufacturer’s MTBF specs
其實,廠商得出的 MTBF 數據與現實世界有一些差距,所以我們常常發現這些實驗室的數據拿到現實世界時,壽命並不如數據來得長。
這是因為廠商的實驗環境。首先,他們的實驗環境因素,並沒有辦法完全反映真實世界的環境。第二,實驗數據依賴的硬碟錯誤回覆,只是眾多回覆中的一組資料,因此當接收到回覆正常時,並不代表此硬碟可以正常運作,因為壞掉的原因有很多種。
因此,MTBF 只能說是現實世界的底線或最佳情形。
How smart is SMART?
SMART (Self-Monitoring, Analysis, and Reporting Technology) 是設計用來偵測硬碟是否正常的技術。通常 SMART 被認為以下四項的偵測結果與硬碟壞掉的比率有明顯的正相關:
- scan errors
- reallocation count
- offline reallocation
- probational count
Google 發現,只有第一項有顯示正相關,即他們發現當硬碟第一次出現 scan errors 時,在往後 60 天內壞掉的機率是正常硬碟的 39 倍。除了 scan errors,其它都沒有明顯的正相關。
因此,SMART 能夠警告的訊息有限,不能夠太依賴它。例行的備份還是王道,如果 SMART 丟出任何一個警告訊息,還是壞一顆硬碟吧。
Over work = early death?
一般人認為讀寫忙碌的硬碟,其壞掉的比率較高。但是 Google 發現不一定都是如此。
在硬碟使用一年後,中等忙碌的硬碟壽命較不忙碌的硬碟長。使用到第三年時,不忙碌的硬碟反而是最容易壞掉的。
Sudden heat death?
一般人也認為溫度是造成硬碟壞掉的重要兇手之一。但是 Google 發現,太低的溫度也不好。平均而言,25~35度是最佳的溫度,且若在使用未達一年的硬碟,最佳溫度是35~45。
其它延伸閱讀
所以...硬體散熱很重要
跟我多年心得一致
嗚嗚嗚~~~ 2.5~3年就死亡的硬碟
