オルタナティブ・ブログ > 情報インフラ24時 眠らないシステム >

「仮想化」をキーワードに情報インフラの世界を考察します。

首都圏自動改札障害で改めて「日本の鉄道事業者はスゴイ」と感じた

»

先週の金曜日、首都圏の自動改札が一斉に停止したことはオルタナブロガーの山口さんが既に紹介していますが、 改めて社会インフラ化したITシステムの危うさを実感した出来事でした。

既に原因はニュースメディアで取り上げられているので、ITmediaのニュース記事を引用して端的に説明します。


『日本信号によると、現時点で判明しているのはこうだ。

原因は自動改札機のICカード判定部の不具合。判定部には毎朝、 サーバから起動用データの1つとして、「ネガデータ」(ネガティブデータ)と呼ぶ、旧式カードや不正カードなど、 改札を通過できないカードを認識するためのデータを送信している。

この朝もネガデータを送信したところ、 判定部がネガデータをメモリに読み込む際に不具合が発生。処理がそこでストップし、起動しなかったという。

調べたところ、ネガデータに「ある長さ、ある件数」といった条件が重なった時、 データが読み込めなくなるプログラム不具合が判定部側にあることが判明。このため、 判定部はエラーを返しながらネガデータ読み込みのリトライをひたすら繰り返す状態に陥り、起動処理が止まった。』


社会インフラを担うITシステムのトラブルでこれほど規模の大きいものは、今年5月の全日空システム障害以来ではないかと思います。
※参考『全日空のシステム障害を考える』
 http://blogs.itmedia.co.jp/infra/2007/05/post_4f1e.html
 
このような事件が起きると必ずシステムテストの不足を指摘されるのが世の常ですが、実際問題、全ての障害を回避することをは不可能ですから、 再発防止をいくら謳ったところで問題の解決にはつながらないと私は思っています。

システム構築のプロフェッショナル性を投げ出すつもりはありませんが、 実務者はできるだけ費用対効果の高いソリューションに取り組むことが望ましく、その意味で、 トラブルが顕在化した際に影響を最小限に抑える方法を突き詰めていくことが必要なのではないかと考えます。


今回のトラブルに対して私が最初に感じたことは、実は、「日本の鉄道事業者はスゴイ」という感心でした。 自分でも不適切な表現だと思いますが、世界有数の社会インフラが停止してしまったのに国民に対する影響はほとんどなかったですよね。

私も金曜の朝に体験しましたが、自動改札が使えないと分かってからの駅員さんの対応はスムーズなもので、 あっという間に改札素通りという措置がなされました。

当然、自動改札がまったく使えなくなった際のワークアラウンドは訓練済みであったと思いますが、 ここまでスムーズに致命的なトラブルを乗り越えられたことは「スゴイ」と感じるに十分だと思います。

こういったトラブル後対応をどこまで徹底すればいいのか、これは非常に難しい問題です。 障害訓練の類はやればやるほどお金がかかるのです。少なくない企業で、本当は考えなければいけない重大障害対策を敢えて無視している、 という状況にあることでしょう。

だからこそ、このような活動は業界全体で取り組んでいかなければなりません。米国では、あの同時多発テロ以降、 金融機関を中心に大規模災害(障害)訓練を行うようになりました。これは、 避けようのない最悪の事態があることを身をもって知ってしまったからです。

鉄道事業者の場合、おそらく国土交通省に従って、もしくは各社が自発的に協議して障害訓練を綿密に取り組んできたのだと思います。

さて、あなたが所属する業界ではそのような取り組みはなされているでしょうか?

Comment(8)