從 Google 身上學到硬碟故障的經驗

引用自

http://antbsd.twbbs.org/~ant/wordpress/?p=592

2007 年 2 月，Google Lab 上出現了一篇關於硬碟故障的經驗分享。「Failure Trends in a Large Disk Drive Population」，論文原文下載在此(PDF)。

這篇研究的對象是，十萬台 PATA/SATA, 5400~7200 rpm, 80~400GB 的硬碟。研究期間為 2005年12月 ~ 2006年8月。

Vendor MTBF and Google AFR

Mean Time Between Failure(MTBF) 是硬碟廠商提供的硬碟壽命參考數據。如果廠商規格提供 300,000 MTBF，則可以預期在大量的同型硬碟中，有一半的數量會在使用 300,000 小時前壞掉。但是，MTBF沒有告訴我們，剩下的硬碟還能運作多久。

理想中，如果我們有 600,000 顆 300,000 MTBF 的硬碟，會預期每個小時就會壞掉一顆。一年中，就有 8,760顆硬碟壞掉，換算成 Annual Failure Rate (AFR) 的話，就是 1.46% (8,760 / 600,000)。

Manufacturer’s MTBF specs

其實，廠商得出的 MTBF 數據與現實世界有一些差距，所以我們常常發現這些實驗室的數據拿到現實世界時，壽命並不如數據來得長。

這是因為廠商的實驗環境。首先，他們的實驗環境因素，並沒有辦法完全反映真實世界的環境。第二，實驗數據依賴的硬碟錯誤回覆，只是眾多回覆中的一組資料，因此當接收到回覆正常時，並不代表此硬碟可以正常運作，因為壞掉的原因有很多種。

因此，MTBF 只能說是現實世界的底線或最佳情形。

How smart is SMART?

SMART (Self-Monitoring, Analysis, and Reporting Technology) 是設計用來偵測硬碟是否正常的技術。通常 SMART 被認為以下四項的偵測結果與硬碟壞掉的比率有明顯的正相關：

Google 發現，只有第一項有顯示正相關，即他們發現當硬碟第一次出現 scan errors 時，在往後 60 天內壞掉的機率是正常硬碟的 39 倍。除了 scan errors，其它都沒有明顯的正相關。

因此，SMART 能夠警告的訊息有限，不能夠太依賴它。例行的備份還是王道，如果 SMART 丟出任何一個警告訊息，還是壞一顆硬碟吧。

Over work = early death?

一般人認為讀寫忙碌的硬碟，其壞掉的比率較高。但是 Google 發現不一定都是如此。

在硬碟使用一年後，中等忙碌的硬碟壽命較不忙碌的硬碟長。使用到第三年時，不忙碌的硬碟反而是最容易壞掉的。

Sudden heat death?

一般人也認為溫度是造成硬碟壞掉的重要兇手之一。但是 Google 發現，太低的溫度也不好。平均而言，25~35度是最佳的溫度，且若在使用未達一年的硬碟，最佳溫度是35~45。

其它延伸閱讀

所以...硬體散熱很重要

跟我多年心得一致

嗚嗚嗚~~~ 2.5~3年就死亡的硬碟

DED

DED的部落格

DED 發表在痞客邦留言(0) 人氣( 2 )

▲top

請先登入以發表留言。

DED的部落格