クラウドサーバに、週末、オレ、涙目。

» 2011/02/21

先日から、NTTPCコミュニケーションズの「CLOUD9」を契約している。必要な時に必要なだけストレージやメモリ、CPUを追加出来るパブリッククラウドサーバだ。基本仕様は50GB HDD/メモリ1GB/CPU1コア共用。試しにコントロールパネルからメモリを追加すると、数秒後にはサーバに反映されていた。（追加した分は日割りで翌月に請求される）また、サーバが故障した場合は、他の代替サーバに自動移行＆自動復旧するフェイルオーバー機能や、リソースの使用状況に応じて空きのあるサーバに自動移行するマイグレーション機能も提供しており、ダウンタイムの短縮や高負荷影響を抑える機能もうたっている。

そのCLOUD9に、この週末、大規模な障害があった。土曜日からロードアベレージが50を越える高負荷状態となり、HTTPで繋がらないばかりか、SSHでサーバに接続することもままならなくなった。CLOUD9のサポートは問い合わせフォームとメールのみなので、早速フォームから問い合わせた。その日は問い合わせに対する返信はなかったが、障害情報はアップされた。2月20日朝5時完全復旧とあった。

しかし、2月20日になっても断続的にロードアベレージが上昇し、再びサーバに接続出来なくなった。

OSの再インストールを行ったところなので、まだHTTPとMySQL、それからサーバ監視のCactiぐらいしか動かしていない。それでいてロードアベレージは70を軽く越えている。結局、2月21日の深夜に全仮想サーバを停止させてのメンテナンスが行われ、早朝7時に復旧したようだ。2日間にも渡る大規模障害。中の人にはお疲れさまと言いたい。

クラウドサーバでも落ちる時は落ちる。フェイルオーバー機能やマイグレーション機能も、サービス全体に影響が出ているケースでは有効に動作しなかったようだ。大切なのは落ちてもいいサーバ構成をこちらで考えることなんだろうが、全仮想サーバが落ちるような大規模障害では対処の難しいところだ。急遽、いざと言う時のために、Amazon EC2にもサーバを作って寝かしておくことにした。

ちなみに、2月19日に問い合わせた件の返信は、今現在、まだない。自分にもお疲れさまと言いたい。

西本智 2011/02/21 11:00:00 Comment(2)

SpecialPR

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

クラウドサーバに、週末、オレ、涙目。

最新の投稿

西本智

2026年7月