オルタナティブ・ブログ > 秋山大志のそれとりあえず作ってみようか。 >

あれこれ考えるよりも作ってしまった方が早いんじゃね?と思う、ギークなサラリーマンのアジャイルな日々。

【速報】アマゾン炎上?! AWS EC2 東京リージョンの大規模障害で国内有名サイト、アプリが障害発生中 有名ゲームタイトル、PayPay、東急ハンズ 、朝日新聞デジタル、スマニュー、music.jp、ペライチ、アクサ生命、バックログなどのサイトが見られない、機能障害、エラー等発生

»
8/23 22:00追記 日本時間の23日18時半に復旧報、20時過ぎに障害詳細の報告がAWSのAmazon Web Services » Service Health Dashboardに上がってますね。

以下を見ると冗談じゃなく、サーバーが炎上(オーバーヒート)してしまったようで。。

Aug 23, 4:18 AM PDT Beginning at 8:36 PM PDT a small percentage of EC2 servers in a single Availability Zone in the AP-NORTHEAST-1 Region shutdown due to overheating. This resulted in impaired EC2 instances and degraded EBS volume performance for resources in the affected area of the Availability Zone. The overheating was caused by a control system failure that caused multiple, redundant cooling systems to fail in parts of the affected Availability Zone. The chillers were restored at 11:21 PM PDT and temperatures in the affected areas began to return to normal. As temperatures returned to normal, power was restored to the affected instances. By 2:30 AM PDT, the vast majority of instances and volumes had recovered. We have been working to recover the remaining instances and volumes. A small number of remaining instances and volumes are hosted on hardware which was adversely affected by the loss of power. We continue to work to recover all affected instances and volumes. For immediate recovery, we recommend replacing any remaining affected instances or volumes if possible. Some of the affected instances may require action from customers and we will be reaching out to those customers with next steps.

とりあえず、影響を受けたサイト、アプリ、サービスの中の方、お疲れ様でございました。バッチ系、トランザクション系のサービスの方は整合性の確認や、処理が止まってた間のリカバリー処理など大変かと思いますが。。

8/23 17:50追記

記事アップ当初は落ちていたサイトも続々と復旧しているけど、Amazon Web Services » Service Health Dashboardを見てもアップデートなし。

今回、東京のアベイラビリティゾーン(AZ)のうちap-northeast-1aだけが落ちていたということで、シングルAZでも残りのb〜dのAZを使っていた場合は影響なかったみたいだけど、他のAZに移して復旧したのか、復旧が順次ロールオーバー中なのかわかりませんね。

でも、多少のコストをかけてマルチAZにしておけば今回のような障害でも1-2分の断だったということを考えるとリスクマネジメントって難しいなあと思います。


南米ブラジルのアマゾンでは地球環境に影響を及ぼす規模の森林火災が発生し、大きなニュースになっていますが、ここ日本では、クラウドの雄、アマゾンウェブサービス(AWS)が炎上中です。

2019年8月23日 15時現在、AWS EC2 東京リージョンの大規模障害発生で、本日13時ごろから、国内有名サイトや、人気ゲームアプリなど、多くのサイト、アプリにてサービスが提供できない、一部機能が使えない、サイトが全く見られないなどの障害が発生しています。

現在、情報収集中ではありますが国内の大企業でもクラウド利用がやっと進んできた中での未曽有の大規模障害はその流れに水を差すことにもなりかねませんし、なにより、最前線の現場に立つエンジニアを、障害対応や上司や経営陣への経緯報告・説明資料作成、今後の対策案の策定など、お客様に向き合わない内向きな仕事に奔走するような事態にしてしまうことになります。

障害は起きてしまうのは仕方がありませんので、何をクラウドで動かし、何をオンプレでやるのかをしっかり設計するのも大事ですし、このような障害が起きた際にも最低限のサービスや、ミッションクリティカルな機能やサービスについては継続提供できるようにしておくことも重要なことです。

ただ、これで開発スピードが下がったり、お客様に向いた仕事ができなくなる、つまり顧客提供価値を産めなくなってしまうようなことになっては、いくら保険、リスクヘッジをかけても仕方がなくなってしまうので、その辺は経営やマネージメントに関わる人にはグッとこらえていただければと願うばかりです。

以下がAWS側の最新情報ですが、各サイト、サービス、アプリ側で影響の出ていないリージョンやAZにコンテナ等を移してサービス再開するかもなので、ひとつのサイト、サービス、アプリが復旧してもそれが今回影響を受けた全サービスの復旧とは限らないので注意が必要です。こういうときにサクッと復旧できるサイト、サービス、アプリには良いエンジニアがいるってことですねー。まあ、本当に出来るエンジニアだったらそもそも落ちないかもしれませんがw

Amazon Web Services » Service Health Dashboard Asia Pacific
https://status.aws.amazon.com/#AP_block

9:18 PM PDT We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.
9:47 PM PDT We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the AP-NORTHEAST-1 Region. Some EC2 APIs are also experiencing increased error rates and latencies. We are working to resolve the issue.
10:27 PM PDT We have identified the root cause and are working toward recovery for the instance impairments and degraded EBS volume performance within a single Availability Zone in the AP-NORTHEAST-1 Region.
11:40 PM PDT We are starting to see recovery for instance impairments and degraded EBS volume performance within a single Availability Zone in the AP-NORTHEAST-1 Region. We continue to work towards recovery for all affected instances and EBS volumes.
※PDTは+16時間で日本時間 例)PDT午後11:40 ⇒ JST日本時刻午後15時40分

とりあえず、速報でした。

Yahoo!リアルタイム検索 「障害」 2019/8/23 13:00-

https://search.yahoo.co.jp/realtime/search?p=%E9%9A%9C%E5%AE%B3&rkf=1&ei=UTF-8&lts=1566532800&uts=1566642700&gd=1&gm=d

東急ハンズ(ハンズネットトップ) 503エラー
https://hands.net/

朝日新聞デジタルでログインなどができない障害について
https://digital.asahi.com/info/information/articles/ASM8R4JY4M8RUEHF001.html?

【障害】music.jpのアクセス不具合について

http://music-book.jp/Information/Detail/31332

PayPayでお支払いやチャージができない

https://paypay.ne.jp/notice/20190823/01/

アクサ生命 カスタマーサービスセンターおよびHPのシステム障害に関するお詫び

https://www.axa.co.jp/info/2019/0823

四季報オンライン

https://s.toyokeizai.net/

Backlog ※15:55現在表側にアナウンスはないが、アプリ側でアナウンスあり
https://backlog.com/ja/product-updates/

現在 AWSサーバーで発生している障害の影響により、一部のスペースにアクセスできない状態となっております。現在復旧に向けて対応と情報の収集を進めております。お急ぎのところ恐れ入りますが、いましばらくお待ちくださいますようお願いいたします。ご不便をおかけしており、誠に申し訳ございません。参照: https://status.aws.amazon.com/

弁護士ドットコム
https://www.bengo4.com/c_3/

下層ページが500エラー

Comment(0)