「仮想化」をキーワードに情報インフラの世界を考察します。

故障するまで100年以上かかるHDDとは?

»

先日、知り合いからこんな質問を受けました。


 「最近のハードディスクは100年以上壊れないってホントかい?」


そんな玉がある訳ないだろうと心の中で突っ込みつつ、一体何を見てそんな疑問を持ったのか聞いてみると、製品スペックのMTTF(平均故障時間)という欄に100万時間と書かれていたとのこと。

1年は24時間×365日ですから、100万時間というとおよそ114年に相当します。製品スペックにそんな常識外れの数値が書かれていれば、誰でも疑問に感じますよね。

もちろん、その疑問の通り、100年以上も壊れないハードディスクなどあるわけありません。企業システムの運用に携わった方の中には、毎月のようにディスクの活性交換を経験している方もいらっしゃるでしょうし、個人PCなら、5年もすればディスクエラーでハードディスクの交換を余儀なくされます。


では、この100万時間という表現は誇大広告で、JAROに訴えた方がいいのでしょうか。いえいえ、実は考え方の違いであって、決して誤った表現ではないんですよね。

例えば、目の前に100台のハードディスクがあるとします。これらに高い負荷をかけて同時に1万時間稼動させたとして、期間内に1台しかクラッシュしなかったら、これは”100台×1万時間=100万時間で故障が発生した”と見做すわけです。

仮に、ハードディスクを1万台用意して同じ負荷テスト(ヒートランテスト)を行ったとして、100時間故障無しで動かすことができれば、MTTFは100万時間を越えるのですが、前述の100万時間とは当然質が異なります。

冒頭で登場した知り合いはMTTFの数値を鵜呑みにしてはいませんでしたが、実際、ITに詳しくない方の中には、こういったことを知らずに本気で100万時間連続稼動できるのだと信じてしまう方もいます。


もうちょっと誤解の少ない表現で製品の耐久性をアピールしてほしいなと思うのは私だけでしょうか?

Comment(8)

コメント

imram

>例えば、目の前に100台のハードディスクがあるとします。これらに高い負荷をかけて同時に1万時間稼動させたとして、期間内に1台しかクラッシュしなかったら、これは”100台×1万時間=100万時間で故障が発生した”と見做すわけです。

 この実験結果は1万時間後の故障率=1%(100台中1台)ということであり、MTTF=100万時間と見なすのは明らかに間違いです。MTTFは、いわば、故障率が50%になる時間ですが、当然、1%になる時間の50倍ではありません。急速に故障率は増えるはずです。
 HDDメーカーが故障率100%になる時間を1%になる時間の100倍と仮定して、MTTFと称しているのなら「JAROに訴えた方がいい」でしょう。
 実際、そういうスペックが公表されているみたいですね。ほんとなんでしょうか。

mohno

驚きですね。赤ちゃんだけで平均寿命を計算しているような・・・(何歳になるんだろう)。
ちなみに MTTF を使っているのは Maxtor だけで、他は MTBF(故障間隔)を使っているのですね。ってことは修理して使うってことでしょうか。
[Maxtor - MaXLine Pro 500 - MTTF]
http://www.maxtor.co.jp/products/enterprise_storage/maxline_family/maxline_pro_500/index.htm
[Hitachi Global Storage Technologies - Deskstar E7K500 - MTBF]
http://www.hitachigst.com/portal/site/en/menuitem.eb9838d4792cb564c0f85074eac4f0a0/
[Seagate - Cheetah 15K.4 - MTBF]
http://www.seagate.com/cda/products/discsales/marketing/detail/0,1081,693,00.html
[Western Digital - WD RE2 - MTBF]
http://www.wdc.com/jp/products/Products.asp?DriveID=238&Language=jp
[Samsung - MTBFの説明]
http://www.samsung.com/Products/HardDiskDrive/whitepapers/WhitePaper_05.htm

おそらくMTTFの考え方は、会社によって若干違っていると思います。その中には、本稿で説明したとおり、100万時間を延べ時間で捉えるケースもあります。

グーグルで検索すると分かりますが、MTTFは色々な解釈がされており、今となっては何が標準的な計算方法なのか分からないほどです。

こういったいい加減さがIT業界の問題点なのでしょうね。

mohno

それにしても("Low duty cycle" と書いてはあるものの)具体的にどんなテストなのか、いくつのサンプル数で調べているのか書いてないものがほとんどですね。
50万時間とか140万時間とか多少のバラつきはありますが、こんな低レートのもので、これほど「均一」なのはヘンな気もします。
どこかがMTTF or MTBF=100万時間とか言いはじめて、他も同じレベルで追従せざるを得なくなってしまったんじゃないでしょうか。

Toshi

百人の人間がいて、そのうちの一人が一番早く五十歳で亡くなったとします。するとその集団の平均寿命は5千年でしょうか?

HDDは使用時間に対しての故障率が指数関数的に上昇するわけで、故障するまで100年以上かかるなどという理屈は、誤った論理でまったくナンセンスです。

mohnoさん、各社の情報を整理頂きありがとうございます。皆様のご指摘は非常にごもっとも。今度、ベンダーの方と話す機会があれば、ちょっと触れてみようと思います。

bem

はじめまして、最近某HDDメーカーに製品寿命について問い合わせたことがあり、気になって読ましていただきました。私が聞いたところではMTBFは参考程度で、一番壊れやすいプラッタの寿命にあわせて製品寿命5年と設定しているとのことでした。
測定条件は温度、湿度、振動に関して教えてくれましたが、サンプル数は"large batches"としか聞いていません。HDDは同一ロットでも寿命が安定しないそうなのでメーカーとしても不公平さを感じているのではないでしょうか?

なるほど、確かにプラッタが先にダメになる方が可能性は高いですから、それを製品寿命と見るのは現実的な認識だと思います。それなら製品スペックにそう書けば誤解が少ないのになぁ。

ちなみにコレは人伝に聞いた話で信憑性は定かではありませんが、コンシューマ向けのHDD(100GB1万円程度)と業務用HDD(73GB20万円程度)はテスト工程の厳密度合いが異なるだけで、同じ部品を使用している(同じHDD)という話を聞いたことがあります。

コメントを投稿する