オルタナティブ・ブログ > ここを隠れ家とする。 >

CRMシステム作っている会社に勤めるシステムエンジニアの日記帳。

クラウドサーバに、週末、オレ、涙目。

»

先日から、NTTPCコミュニケーションズの「CLOUD9」を契約している。必要な時に必要なだけストレージやメモリ、CPUを追加出来るパブリッククラウドサーバだ。基本仕様は50GB HDD/メモリ1GB/CPU1コア共用。試しにコントロールパネルからメモリを追加すると、数秒後にはサーバに反映されていた。(追加した分は日割りで翌月に請求される)また、サーバが故障した場合は、他の代替サーバに自動移行&自動復旧するフェイルオーバー機能や、リソースの使用状況に応じて空きのあるサーバに自動移行するマイグレーション機能も提供しており、ダウンタイムの短縮や高負荷影響を抑える機能もうたっている。

そのCLOUD9に、この週末、大規模な障害があった。土曜日からロードアベレージが50を越える高負荷状態となり、HTTPで繋がらないばかりか、SSHでサーバに接続することもままならなくなった。CLOUD9のサポートは問い合わせフォームとメールのみなので、早速フォームから問い合わせた。その日は問い合わせに対する返信はなかったが、障害情報はアップされた。2月20日朝5時完全復旧とあった。

しかし、2月20日になっても断続的にロードアベレージが上昇し、再びサーバに接続出来なくなった。

Load

OSの再インストールを行ったところなので、まだHTTPとMySQL、それからサーバ監視のCactiぐらいしか動かしていない。それでいてロードアベレージは70を軽く越えている。結局、2月21日の深夜に全仮想サーバを停止させてのメンテナンスが行われ、早朝7時に復旧したようだ。2日間にも渡る大規模障害。中の人にはお疲れさまと言いたい。

クラウドサーバでも落ちる時は落ちる。フェイルオーバー機能やマイグレーション機能も、サービス全体に影響が出ているケースでは有効に動作しなかったようだ。大切なのは落ちてもいいサーバ構成をこちらで考えることなんだろうが、全仮想サーバが落ちるような大規模障害では対処の難しいところだ。急遽、いざと言う時のために、Amazon EC2にもサーバを作って寝かしておくことにした。

ちなみに、2月19日に問い合わせた件の返信は、今現在、まだない。自分にもお疲れさまと言いたい。

Comment(2)