オルタナティブ・ブログ > クラウド的な世界へ >

企業ITもクラウド的な世界に向かい始めた今日この頃を徒然に‥

クラウドではいろんな意味がある99.9%の稼働率

»

Gmailが8月、10月と相次ぐ障害でだいぶTechCrunchの記事などで非難されていました。それでも99.9%の稼働率は多くの社内システムと比較すれば悪くない数字なのですが、99.999%まで高めて出直してほしいときびしい意見です。そこで少し99.9%の意味を掘り下げて考えてみました。

Googleは稼働率に関しては、Google Blogでみると「サーバー側のエラー率に基づく1ユーザー当たり平均稼動時間」という定義から算出しているそうです。8月の障害はほぼ全ユーザーが2時間の障害という上の記事を信じると、月間稼働率は全ユーザーなので、約99.7%の稼働率となります。こういった障害の場合は、ユーザー全員が今月は2時間止まった、つまり99.7%程度の稼働率のサービスと実感できるわけです。

一方、10月の障害は、0.003%程度のユーザーに30時間の影響ということです。企業版のプレミアユーザーが100万人という説明なので、それから計算すると30人が30時間です。これで月間の稼働率はというと、上の定義の計算式がやや不明瞭ですが全体の平均だとすると、他にまったく障害がなければ1ユーザーあたりに平均されて、99.9999%という数字になります。つまりその30人以外は100%の稼働率を体感し、30人のユーザーは30時間なので約96%となります。

仮にシステムが1台のサーバーでまかなわれていれば、サーバー稼働率がそのままユーザー体感の稼働率となります。一方、クラウドの世界ではとてつもない数のサーバーで運営されていることを考えると、障害も局所的になりがちで、平均稼働率は障害にあったユーザーの感覚とは大きくずれてくるのも仕方ないかもしれません。

冒頭の記事のように、ユーザーとしては99.999%で出直してきてほしいと言いたくなる一方で、システム屋としては膨大なサーバーを運営して、平均で99.9%まで高めているGoogleにも同情したくなります。クラウドの稼働率というのは、どうも今までの考え方だけではそれだけでは納得感がないのかもしれません。その代わり何ユーザーが何時間といった事実を具体的に報告するのも信頼を得る方法かなとも思います。または今後、別なSLAの指標を作るのが必要なのかもしれません。

なお、そのGoogle BlogではGmailが普通の企業メールよりは停止時間がさらに少ないことを、ExchangeやLotus Notesが障害以上に計画停止が長いことを引き合いにして、外部調査データで並べて比較しています。ただ、これが事実でも障害時にこういう説明をユーザーにすると、火に油をそそぐことが多いのではと過去の苦い経験から感じました。

Comment(0)