facebook のストレージは RAIDでは無いらしい
»
また、クラウドで結構な規模の事故が起きている。
原発でも航空機でもそうだが、事故を100%起きないようにすることは不可能に近い。それ故、原発でも航空機でもクラウドでも、事故の発生確率を極限まで下げる努力を行うとともに、事故が発生した際の影響の最小化を図っている。
この影響の最小化と関係する話題として、ちょうど昨日の社内勉強会:白熱塾で Open Compute Project (OCP) についての議論を行ったところだった。
OCP の仕様は単なる机上の検討ではなく、OCP仕様で実装されたハードウェアをfacebookで大量に利用されているそうだ。これは、単品としてのハードウェア仕様としての意義だけでなく、それを運用、維持、保守した実績とノウハウも含めて評価する必要があるだろう。
そして、この facebook のデータセンターであるが、なんとサーバーの故障交換は
”いきなりサーバー(マザーボード?)を引っこ抜いて代替を差し込む”
という大胆、というかシンプルな対応でいいそうだ。 見学してきた人によると、事前にシステム上で論理的な切り離し作業など行っていないようだったらしい。 これは、サーバーというハードウェアのレベルではなく、より上位のソフトウェアのレイヤーで完全な冗長構成がとられていて、サーバーハードウェアの故障を意識する必要がないということだろう。
この場合、サーバーの故障(事故)の確率がたとえ高くても、事故の影響がほとんど無い構成としているということ。 つまりは、サーバーは故障しても全く困らないので、無駄なコストをかけてサーバー単体内部で冗長構成を組む必要は無いということだ。
ここまでならば、”当然じゃん”と思われる人も少なくないだろう。
しかし、facebook (というより OCP仕様?)では、どうやらストレージに関しても同様な構成となっているようだ。
一時話題となった facebook のストレージ装置。 "facebook storage" で画像検索すると写真がたくさん見られる、あの”引き出し”式の HDD が 15〜30台詰まったあのストレージ装置である。
あれだけの HDD がひとつの筐体に入っているのだから、内部で RAID構成が組まれているものと勝手に思い込んでいたが、ハードウェア的な RAID構成は取られてなく、筐体内部での冗長構成は無いらしい。
つまりは、あの30台のHDDが詰まったストレージ装置がたとえ全滅しても大丈夫なように、上位のレイヤーでソフトウェア的に冗長構成が組まれているということらしい。だから、ストレージ装置単体では、無駄な冗長構成をとる必要がない。
システム全体の信頼性を検証する手法として
『Single Point of Failure (SPOF) analysis』
がある。”系統” 全体として単一障害点が無いか検証するものだ。
雲の中にあるクラウドについても、ソフトウェア、ネットワーク、ハードウェア、データセンター設備、データセンター設置場所(国?)も含めて、SPOF Analysis をすることで、最適なコストパフォーマンスでの冗長性、信頼性を保つようにチューニングしていくことができそうだ。
SpecialPR