引用自

http://antbsd.twbbs.org/~ant/wordpress/?p=592

 

從 Google 身上學到硬碟故障的經驗

2007 年 2 月,Google Lab 上出現了一篇關於硬碟故障的經驗分享。「Failure Trends in a Large Disk Drive Population」,論文原文下載在此(PDF)。

 

這篇研究的對象是,十萬台 PATA/SATA, 5400~7200 rpm, 80~400GB 的硬碟。研究期間為 2005年12月 ~ 2006年8月。

Vendor MTBF and Google AFR

Mean Time Between Failure(MTBF) 是硬碟廠商提供的硬碟壽命參考數據。如果廠商規格提供 300,000 MTBF,則可以預期在大量的同型硬碟中,有一半的數量會在使用 300,000 小時前壞掉。但是,MTBF沒有告訴我們,剩下的硬碟還能運作多久。

理想中,如果我們有 600,000 顆 300,000 MTBF 的硬碟,會預期每個小時就會壞掉一顆。一年中,就有 8,760顆硬碟壞掉,換算成 Annual Failure Rate (AFR) 的話,就是 1.46% (8,760 / 600,000)。

Manufacturer’s MTBF specs

其實,廠商得出的 MTBF 數據與現實世界有一些差距,所以我們常常發現這些實驗室的數據拿到現實世界時,壽命並不如數據來得長。

這是因為廠商的實驗環境。首先,他們的實驗環境因素,並沒有辦法完全反映真實世界的環境。第二,實驗數據依賴的硬碟錯誤回覆,只是眾多回覆中的一組資料,因此當接收到回覆正常時,並不代表此硬碟可以正常運作,因為壞掉的原因有很多種。

因此,MTBF 只能說是現實世界的底線或最佳情形。

How smart is SMART?

SMART (Self-Monitoring, Analysis, and Reporting Technology) 是設計用來偵測硬碟是否正常的技術。通常 SMART 被認為以下四項的偵測結果與硬碟壞掉的比率有明顯的正相關:

  • scan errors
  • reallocation count
  • offline reallocation
  • probational count

Google 發現,只有第一項有顯示正相關,即他們發現當硬碟第一次出現 scan errors 時,在往後 60 天內壞掉的機率是正常硬碟的 39 倍。除了 scan errors,其它都沒有明顯的正相關。

因此,SMART 能夠警告的訊息有限,不能夠太依賴它。例行的備份還是王道,如果 SMART 丟出任何一個警告訊息,還是壞一顆硬碟吧。

Over work = early death?

一般人認為讀寫忙碌的硬碟,其壞掉的比率較高。但是 Google 發現不一定都是如此。

在硬碟使用一年後,中等忙碌的硬碟壽命較不忙碌的硬碟長。使用到第三年時,不忙碌的硬碟反而是最容易壞掉的。

Sudden heat death?

一般人也認為溫度是造成硬碟壞掉的重要兇手之一。但是 Google 發現,太低的溫度也不好。平均而言,25~35度是最佳的溫度,且若在使用未達一年的硬碟,最佳溫度是35~45。

其它延伸閱讀

  1. Google’s Disk Failure Experience

 

所以...硬體散熱很重要

跟我多年心得一致

嗚嗚嗚~~~    2.5~3年就死亡的硬碟

文章標籤
全站熱搜
創作者介紹
創作者 DED 的頭像
DED

DED的部落格

DED 發表在 痞客邦 留言(0) 人氣(0)