先週の金曜日、首都圏の自動改札が一斉に停止したことはオルタナブロガーの山口さんが既に紹介していますが、 改めて社会インフラ化したITシステムの危うさを実感した出来事でした。

既に原因はニュースメディアで取り上げられているので、ITmediaのニュース記事を引用して端的に説明します。


『日本信号によると、現時点で判明しているのはこうだ。

原因は自動改札機のICカード判定部の不具合。判定部には毎朝、 サーバから起動用データの1つとして、「ネガデータ」(ネガティブデータ)と呼ぶ、旧式カードや不正カードなど、 改札を通過できないカードを認識するためのデータを送信している。

この朝もネガデータを送信したところ、 判定部がネガデータをメモリに読み込む際に不具合が発生。処理がそこでストップし、起動しなかったという。

調べたところ、ネガデータに「ある長さ、ある件数」といった条件が重なった時、 データが読み込めなくなるプログラム不具合が判定部側にあることが判明。このため、 判定部はエラーを返しながらネガデータ読み込みのリトライをひたすら繰り返す状態に陥り、起動処理が止まった。』


社会インフラを担うITシステムのトラブルでこれほど規模の大きいものは、今年5月の全日空システム障害以来ではないかと思います。
※参考『全日空のシステム障害を考える』
 http://blogs.itmedia.co.jp/infra/2007/05/post_4f1e.html
 
このような事件が起きると必ずシステムテストの不足を指摘されるのが世の常ですが、実際問題、全ての障害を回避することをは不可能ですから、 再発防止をいくら謳ったところで問題の解決にはつながらないと私は思っています。

システム構築のプロフェッショナル性を投げ出すつもりはありませんが、 実務者はできるだけ費用対効果の高いソリューションに取り組むことが望ましく、その意味で、 トラブルが顕在化した際に影響を最小限に抑える方法を突き詰めていくことが必要なのではないかと考えます。


今回のトラブルに対して私が最初に感じたことは、実は、「日本の鉄道事業者はスゴイ」という感心でした。 自分でも不適切な表現だと思いますが、世界有数の社会インフラが停止してしまったのに国民に対する影響はほとんどなかったですよね。

私も金曜の朝に体験しましたが、自動改札が使えないと分かってからの駅員さんの対応はスムーズなもので、 あっという間に改札素通りという措置がなされました。

当然、自動改札がまったく使えなくなった際のワークアラウンドは訓練済みであったと思いますが、 ここまでスムーズに致命的なトラブルを乗り越えられたことは「スゴイ」と感じるに十分だと思います。

こういったトラブル後対応をどこまで徹底すればいいのか、これは非常に難しい問題です。 障害訓練の類はやればやるほどお金がかかるのです。少なくない企業で、本当は考えなければいけない重大障害対策を敢えて無視している、 という状況にあることでしょう。

だからこそ、このような活動は業界全体で取り組んでいかなければなりません。米国では、あの同時多発テロ以降、 金融機関を中心に大規模災害(障害)訓練を行うようになりました。これは、 避けようのない最悪の事態があることを身をもって知ってしまったからです。

鉄道事業者の場合、おそらく国土交通省に従って、もしくは各社が自発的に協議して障害訓練を綿密に取り組んできたのだと思います。

さて、あなたが所属する業界ではそのような取り組みはなされているでしょうか?

NAKA

Special

- PR -
コメント
yohei 2007/10/14 22:36

常時開放状態にできる自動改札機が少なくて、混雑してしまった駅はあったそうですが、ほとんどの駅で大きな混乱は無かったようですね。
私は障害時に重要となる「切り分け」というのがどのように行われたか気になっています。障害を起こした自動改札機は特定のメーカーのものだったとの事ですが、各駅で起きた不具合がどのような形式で報告されたか、そしてその報告を見て誰がいつ頃不具合の全容=特定のメーカーの改札機がおかしい、という事に気付いたのでしょうか。小規模なシステムならともかく、大規模システムとなるとこのあたりが非常に難しいように思います。ぜひとも参考にさせていただきたいところです。

いわなが 2007/10/15 10:05

イベントにも通じるのですが、一番怖いのが情報が錯綜するなかで人が滞留してしまうことで、その中でパニックが起きて取り返しのつかない事態を招いた事例・事件がいくつもあります。
良いかどうかは別にして、鉄道については故障や事故など何らかの障害で運行が一時的に停止して駅施設に人が滞留する状況になり、改札への流入制限を実施すると同時に駅舎外に出る人を中途半端に制限せずにとにかく出すケースというのはいくつも想定できますから、障害の原因はどうであれ人が滞留しているという事態に対する対応はシステマチックにできる体制にあるということなんでしょうね。

Can 2007/10/15 10:59

障害の発生した翌日分からは、ネガデータを配布する前に、テスト環境で問題が発生しないことを確認しているそうです。
問題発生時の影響を考えれば、テストしてからネガデータを配布するのが当然と思いますが、なぜデータのテストをしていなかったのでしょうか?システム設計時の漏れでしょうか。

NAKA@情報インフラ24時 2007/10/15 12:28

 yoheiさん、コメントありがとうございます。
 一時対応を迅速に進めるためには初期の障害識別が何より重要になりますが、自動改札機器を統括して管理している中央センターが、想定事例ケースに従って代替オペレーションをうまく誘導できた賜物なのでしょう。
 一般企業では、早朝6時前という段階では意思決定者が適切な判断を下すことは難しいケースもありますが、さすがに鉄道は中央センターも朝から万全の体制だったのだと思います。

NAKA@情報インフラ24時 2007/10/15 12:31

 いわながさん、コメントありがとうございます。
 なるほど、人を滞留させないことも重要なポイントですね。鉄道のように1秒単位で影響範囲が激増していくサービスでは、サービス利用者の滞留を招くことが最も避けねばならないことなのでしょうね。参考になります。

NAKA@情報インフラ24時 2007/10/15 12:47

 Canさん、コメントありがとうございます。
 おそらくデータの長さによる異常終了もテスト項目に入っていたのではないかと思いますが、そのようなテストは大抵正常値と異常値と閾値に関するものになるため、今回のような異常終了はつゆほども考えなかったのでしょう。
 今回、障害が発生してしまったことについては大変残念だったと思いますが、むしろ私はシステム障害自体を問題と考えるのではなく、せっかく別の会社が製造した3種類の自動改札があるのだから、ひとつの駅に複数の製造元の自動改札を置くべきであった点について反省してもらいたいと思います。

NAKA@情報インフラ24時 2007/10/15 12:47

 Canさん、コメントありがとうございます。
 おそらくデータの長さによる異常終了もテスト項目に入っていたのではないかと思いますが、そのようなテストは大抵正常値と異常値と閾値に関するものになるため、今回のような異常終了はつゆほども考えなかったのでしょう。
 今回、障害が発生してしまったことについては大変残念だったと思いますが、むしろ私はシステム障害自体を問題と考えるのではなく、せっかく別の会社が製造した3種類の自動改札があるのだから、ひとつの駅に複数の製造元の自動改札を置くべきであった点について反省してもらいたいと思います。

Can 2007/10/16 10:41

中さん、お答えいただいてありがとうございます。
私がテストという表現をしたため、誤解させてしまったようです。
言いたかったのは、「テスト用の配信サーバーと改札機を用意して、ネガデータを改札機に配信してテスト稼動させれば、問題がわかったのではないか?」ということです。
配信サーバ・改札機とも予備機があるでしょうから、これをテスト用に使うことはできるでしょう。


コメントを投稿する
メールアドレス(必須):
URL:
コメント:
トラックバック

http://app.blogs.itmedia.co.jp/t/trackback/77444/10476751

トラックバック・ポリシー


» このブログのTOP

» オルタナティブ・ブログTOP



プロフィール

中 寛之

中 寛之

アクセンチュアに勤務。
ITIL Managerとして、システムインフラのコンサルティングを中心に、業務領域まで幅広く担当しています。

詳しいプロフィール

カレンダー
2011年12月
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
エンタープライズ・ピックアップ

news094.gif 富士通元社長の山本卓眞氏が残した次代へのメッセージ
富士通の社長、会長を務めた山本卓眞氏が亡くなった。哀悼の意を込めて、日本のIT産業界の大御所が残した次代へのメッセージを紹介しておきたい。(2/6)

news094.gif Facebook就活はもう古い?
約260人のブロガーが、ITにまつわる時事情報などを日々発信しているビジネス・ブログメディア「ITmedia オルタナティブ・ブログ」。その中から今回は「就活」「都心の雪」「ソーシャルメディア」などを紹介しよう。(2/4)

news094.gif 東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
塩害に強い綿の生産で東北に新たな産業を作りたい。オーガニックコットンの採用など、環境負荷を下げるジーンズ生産に取り組んできたリー・ジャパンの新たなチャレンジとは──。(1/30)

news094.gif 東北から始まるイノベーション
企業のICTを活用と若手IT技術者による東北発のイノベーションが、中長期的な震災復興の鍵となる。(1/27)

news094.gif 貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦
全国から約2万7000件の名刺制作を受注をする札幌の小さな印刷会社の成功の秘密は、地道な社会貢献にあった。(1/16)

オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。

Special

- PR -

サイトマップ | 利用規約 | プライバシーポリシー | 広告案内 | お問い合わせ