オルタナティブ・ブログ > 栗原潔のテクノロジー時評Ver2 >

知財、ユビキタス、企業コンピューティング関連ニュースに言いたい放題

前代未聞の東証のトラブル

»

東証のシステム障害ですが、ほぼ全取引が半日停止というかなり深刻な結果になってしまいました。一般に証券系のシステムのダウンタイムコストは1時間あたり10億円くらいなそうですが、これは、ひとつの証券会社のシステムダウンの話であって、証券取引所そのものがダウンした場合の損害額というのはどんなもんなんでしょうか?

いろいろな報道を総合して考えると、原因はアプリケーションのバグであることはほぼ間違いないようですね。要するに人災と言うことです(これに関して昔書いたコラム)。

日経ITProの記事によると、

 今回のトラブルに影響した月次バッチ処理は、毎月、ディスクのフラグメンテーションを解消し空き容量を回復するために行われているもの。この処理により月末にディスク上のデータの配置場所が変わるが、新しいプログラムは何らかの理由でこの変更を認識せず、以前の場所にデータを読みに行ったと見られる。

ということですが、デフラグしたら読めなくなるって、ひょっとして物理ブロック番号でI/Oしてるのでしょうか?(それとも、アプリケーション・ソフトのバグではなく、ファイル・システムのバグということでしょうか?)単に情報が混乱してるだけ?いずれ、詳細が日経コンにでも公開されるでしょうから、それを待ちたいと思います。

ところで、自分は昔金融系のSEをやっていたことがあるので、こういうニュースがあると、もう自分は全然関係ないのに胃が痛くなってしまいます ^_^;

Comment(12)

コメント

今回のシステムはメインフレームを使っていたのでしょうか。銀行のシステムなど滅多に止まらないですよね。
UNIX系のサーバクライアントシステムなら運用経験の差が出たのかもしれませんね。
原因ですが、私はTVや新聞の報道とサーバの増強の為の更新ということでデータベース関連のバグが原因かなあと思っています。

栗原 潔

Unixサーバベースのようです。Unixサーバもハードウェアベースでの信頼性はかなり高くなってますが、やはり運用ノウハウの蓄積等の点でまだ課題がありそうです。
銀行のオンラインシステムはハード、ソフトの信頼性は当然として、信じなれないくらい厳密な運用管理が行われてますので、あのような事実上ノンストップの信頼性が達成されているわけです。

ベンダー広報担当だったころは、こういう報道があるとかなりびびりますね。自社製品が使われているか、製品バグなのか、SIerの立場、顧客の立場など瞬時にさまざまな情報が飛び交います。急ぎFAQを作ったり、場合によっては社内に緘口令を敷いて問い合わせ窓口を一本化したり。製品ベンダーは、こういうときあまり強い立場ではないことが多いですね。

化野 千冬

今回の事故はソフトウェアのバグと言う捉え方が多いようですが、私はテストの不備と考えます。
新聞のコメントによれば、一度も月次処理を含むテストをしないで本番プログラムとして使ったとの事ですが、それが本当であれば弁明の余地がないと言わざるを得ません。
運用の責任者が、テストの意味を理解しているか疑わしい事態と考えます。

ZX-12R

今回のシステムはメインフレームとどこかで見た気がするのですが、私の推測ではオンライン起動JCL内のデータセットに対するカタログが間違ってたんじゃないでしょうかね。テストの時はテスト用データセットのカタログが付いていて、本番のオンライン起動JCLにもそのままカタログを持ってったとか・・・。
(ここ5,6年程メインフレームからは離れているので記憶があいまい。今回は富士通ですが、CICSはそんなカンジだった気が・・・)
4時間半程度で直るとしたらJCL周りかなと思いました。それにしてもダウンした時用のバックアップシステムは動かないんでしょうか。それも同じ理由で動かなかったのでしょうか。

栗原 潔

トラブルの詳細については、あまり憶測してもしょうがないので、某誌の「動かないコンピュータ」の報道を待ちましょう。
一般論として言えば、大規模システムの障害のほとんどがオペミスか変更管理のミスに起因すると言ってよさそうです。

通りすがり

私の聞いた話だと Unix ではなくて Global Server (MSP) だそうですが... (「0C4」とか言われてたし)。

栗原 潔

>通りすがりさん
そうなんですか。初報( http://itpro.nikkeibp.co.jp/article/NEWS/20051101/223818/ ) では、「業務サーバ」という言葉を使っていたので、Unixサーバかと思い込んでいました。まあ、メインフレームも「グローバルサーバ」なんですけど。
しかし、記事によると「午前6時30分に業務サーバの電源を入れたが、、、」と書いてありますが、昨今は週末には基幹系マシンの電源落としちゃうんでしょうか?私が現役SEのころはハード保守が入るときしか落とさなかったと思います。たまたま、この週末に保守が入っていたのか、それもIPL(リブート)のことを「電源を入れた」と表現したのでしょうか?

障害管理者

当日夜のNHKのニュースを見たところでは、単なるプログラムのデグレードですね。月初の銘柄情報の移動を探しに行く機能が新しいプログラムに欠落していたと言っていました。
 私が問題だと思うのは東証の対応です。確かにバグを発生させたのは富士通かもしれませんが、当日中に富士通に損害賠償の話が出ていました。しかし、富士通は東証に無断でプログラムの変更を行えるはずが有りません。当然のことながら東証の管理者がプログラム変更の確認を行っていたはずです。ここで漏れているので東証側の管理責任は免れません。
 この東証の態度はJR西日本のあの事故を思い起こさせます。自社の責任ではなかったという方向で情報をリークして行くやり方です。SIであろうとなかろうと受け入れチェックを行う責任は受け入れる側にあるということは絶対に逃れることはできません。自社の管理体制を棚上げに富士通の責任だけを問う東証の態度に憤りを感じます。

栗原 潔

>障害管理者さん
確かにそれは言えますね。結局丸投げ体質、責任転嫁体質が問題の根のような気が。事実関係が明らかになった段階で総括してみたく思います。
>通りすがりさん
(話戻ってしまいますが)本番オンラインで0C4ですか!あーなぜか胃が痛い(>_<)
(注:0C4はメモリ保護例外。通常、プログラムに致命的なバグがあることを意味する。リランしてもまず解決しない)。

通りすがり

月中に動的(システムを止めない状態で)に移行したプログラムモジュールはオンラインシステムがアクテイブな状態ならばコーディングされたプログラム中のファイル(MSPならデータセットか)定義部分を無視してプログラムは実行されるのではなかったかな・・・
報道を見る限りでは、オンラインシステムを多分月一で停止させてシステムの持つ「メモリ部分」のフラグメンテーションを解消させているんでしょうね。
システムの停止・再起動をしたから、オンラインシステムで定義されているファイル定義情報とプログラムで定義されているファイル情報が新たに読み込まれてディスクレを起こしてシステムが立ち上がらなかったのではというのが推測です。
これが正解ならばテスト系というものがあると思いますが、プログラム中のファイル定義情報部分自体はその名前がテスト環境と本番環境で違っていたりする場合があると思います。

推測はしてもしょうがないですよね(^^;)
ローカル・専門用語は可能な限り故あって控えさせて頂きました。
ものすごい昔に自分も似たような事やってしまった経験がありますのでコメントだけさせて頂きました。

グローバルサーバを調べたら富士通ではメインフレームのことのようです。最近はシステムの中心にいるコンピュータはみんなサーバと呼ぶみたいですね。
だからメインフレームであっても業務サーバというわけのようです。確かに機能を考えれば間違ってはいないですね。

コメントを投稿する