「2012年2月29日に発生したWindows Azure中断についての要約」の補足
詳細はコチラをご参照下さい。
---
個別お客様の対応と平行して進めていた一連の障害における原因解析の
完了を受け、本家ブログの日本語訳掲載までたどりつくことができた。
ご迷惑、ご心配おかけした皆様には改めてお詫び申し上げたい。
少々長い文章で恐縮ではあるが、今回の障害を正しく理解して頂くためには
Windows Azureのコアな部分の仕組みの理解が必要であることから、
これまであまり外部に語ってこなかった内容についても公開している。
手元にサーバーがない分だけ状況がわかりにくいクラウドだからこそ、
可能な限り詳細な情報公開をする姿勢で対応させて頂くことができた点は
手前味噌ながら及第点だったのではないかと思う。
障害内容についてはBill Laingブログの翻訳を参照して頂くこととして
ここではさらなる言及は避けたいが、少しだけ補足しておきたい。
まず、断片的な噂、情報から、「Azureが大規模に落ちたらしい」という
理解をされている方もいるかもしれないが、
■仮想マシンはほぼ止まっていない
■データ消失やストレージサービスの停止はまったくない
という2点は、長文のブログを読んで頂ければわかることなのだけれども、
事象としてとらえにくいところもあるので正しくご理解頂きたいと思う。
では多くのユーザーさんにとって何が大きな問題だったかというと…
■管理ポータル、管理APIが使えなかったこと
…による不安が大きかったように思える。ダッシュボードやその他情報から
「Azureの挙動がおかしいらしいぞ」という情報をキャッチして対策を
とろうと思ったら自分の環境が触れなかった…ことによる不安と心配。
日本で対応していた「管理ポータルが使えない」といった内容の
お問い合わせ件数からもそのように見てとれる。
Bill Laingブログで
「稼働中のアプリケーションへの不本意なインパクトや、スケールアウトの不成功、
そして、無益なアプリケーションの配置などを防ぐため、太平洋標準時
午後 6 時 55 分に、すべてのクラスターにおけるサービスマネージメント機能を
停止いたしました。」
と言及しているように、被害拡大を防ぐための措置としてやむなく
意図的に実施した対応であった。長時間にわたり、サービスの設定変更が
できなかったご不便をおかけした点は深くお詫び申し上げたい。
今回の障害対応では、日本のサポートチームはもちろんのこと、
本社の開発・サポート・オペレーションチームと連携して、みなさんの
サービス継続を最優先に対応してきたということを、Bill Laingブログから
読み取って頂けると嬉しい限りである。
なお、同時期にこちらの現象でカバーしきれていない個別事象があれば
開発サポート窓口に問い合わせ頂きたい。