昨日、東京三菱UFJ銀行のシステム統合に絡む障害が発生し、セブン銀行(セブンイレブンのATM等) から東京三菱UFJ銀行への入出金、残高確認が一切行えなくなりました。
ITmediaの記事に拠れば、原因は「三菱東京UFJ銀行とセブン銀行の間でデータの受け渡しがカタカナではなく漢字であった」 からだそうです。
この件に関するmixiや世の中のブログを見回してみると、多くの人が「銀行のシステム統合だから仕方ないよね」 という論調で語っているように思えました。しかし、それって本当に正常な感覚なのでしょうか?
重要な社会インフラを担うシステムというのは、たった数秒の停止でも大変な影響を社会に及ぼします。 ATMというのもまさにその一つであり、今回、朝9時から11時55分頃まで復旧できなかったために、2万件以上の取引(預金・引き出し・ 自動振替等)が成立しなかったことが明らかになっています。
これが鉄道の管制システムであれば、たった数分間システムが止まっただけで、 衝突によって多くの人命を失うという事態も十分起こり得えます。これはあってはならないことであり、だからこそ、 些細なミスも見逃さないような鉄道各社は手厚い体制を敷いているのです。
これはIT業界にも十分当てはまることだと思います。ここ数年、 コスト削減の名の下にあらゆるIT投資の贅肉が削られて様々な問題を誘発しているように私は感じています。万全の体制というのは、 全体最適の観点からすれば、どうしてもムダがあるように見えてしまうわけですが、実はそのムダな部分が安全・ 安定というものを支えている存在なのではないでしょうか。
あなたの目の前に、幅10メートルで両端がガケになっている一本道があるとします。あなたの幅は0.5メートルもありませんから、
きっと全力で走り抜けることができるでしょう。
しかし、その道幅を体の幅と同じ0.5メートルまで狭めたらどうなりますか? 全力で走った場合、 ちょっとバランスを崩しただけでガケに転落してしまうかもしれません。
今回の三菱東京UFJ銀行のシステム統合は、最盛期の開発要員6000人、開発工数11万人月、 投資額2500億円にも及ぶ壮大なプロジェクトでした。それこそ、みずほ銀行の前例を反面教師として、 絶対に失敗できない状況にあったものと推察します。
しかし、最も容易な部類に入る今回の(旧)東京三菱系→(新)東京三菱UFJへのシステム統合で、 電文文字列の内容が異なっていたという基本的な見落としが発覚した今となっては、そもそものテスト品質の甘さを追及されてもムリからぬこと。 テスト工程(誤字を修正:肯定)のスペシャリストが全てレビューしていたらなら、多分今回の障害は未然に防げた、 もしくは短時間で解決できたと思います。
オルタナブロガーの谷さんが「テストが甘いのよ」 で指摘している、「不具合は絶対にある、という感覚でテストをすること」という姿勢で臨む人材を揃えることは本当に重要なことです。ただし、 そういった人材をテスト工程で大量に投入してしまうとコストもかかるし、リソースが限られているなら開発部分が手薄になる可能性もあります。
プロジェクトメンバーのスキル偏差が気になった事件でした。
-(追記:5/15 0:30)-----------------
記述が十分ではなく誤解を招き申し訳ありません。そもそも私が意図していたのは、 トラブルが人命に関わるレベルの世界(医療、鉄道・航空管制、自動車制御系など) ではバグの発生を極限にまで減らすことに相当努力しているということは、 こういった巨大システム統合においてもなし得る事ができるのではないか、という点でした。
もちろんバグをゼロにすることが現実的な選択肢ではないことも理解していますし、 そのためにBCPが重要であることも強く認識しています。だから、三菱東京UFJさんの場合、 どれだけしっかりとしたBCPが立てられていたか、これが重要だと考えています。
今回のトラブルは対外インターフェースにおける疎通確認テストに含まれる内容だと思いますが、 インターフェースの仕様が誤っていたために起きた事件を想定したBCPが非常に事後対応的だったので、もう少し事前にリスクを世間 (一般消費者)に示すアプローチをとった方が良かったのではないかと思っておりました。
例えば、メガバンクのシステム統合規模であれば、 全国の金融機関に接続失敗時のオペレーションを何パターンか伝えておき、それを店頭や各種提携コンビニ、駅などに周知させるなど、 それだけでも世間から見た障害時の影響というのは変わってくるのではないでしょうか。
その他、思うところをコメント頂いた方々への返信という形でコメントしております。
Special
- PR -| f | 2008/05/13 10:15 |
|
>これが鉄道の管制システムであれば と書かれていますが、銀行システムの障害で「多くの人命を失うという事態も十分起こり得えます」のでしょうか? | |
| a | 2008/05/13 10:42 |
|
銀行のシステム障害で、何百人かは死ぬ恐れはあるでしょう。期限までに入金できなければえらいことです。銀行のせいだと相手が分かればいいですが、そうでない方もいるでしょう。自殺や脅迫、窃盗も発生する可能性が無いとはいえませんね。 | |
| とおりすがり | 2008/05/13 10:45 |
|
自動車のエアバッグだとコンマ何秒で人命に関わる。 | |
| とおりすがり | 2008/05/13 11:35 |
|
「テスト肯定のスペシャリスト」? blogじゃ誤字脱字あっても仕方がないよね | |
| ケン | 2008/05/13 12:33 |
|
欧米等の事例とかでは、今回の案件レベルでの事故や対応はどないないんでしょうか? | |
| 一言 | 2008/05/13 13:06 |
|
私はUFJのシステム開発に携わったことがありますが夜間動くプログラムだけで4千近くあります。 | |
| 追加 | 2008/05/13 13:34 |
|
>カタカナではなく漢字だった | |
| 反論 | 2008/05/13 13:43 |
|
「2万件以上の取引が成立しなかった」と書かれているが、発生条件から考えて限定的と言えるだろう。 鉄道の管制システム(恐らくATOSとかCTCとかのことを言ってるのでしょうが)と コメント欄の下部には「オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。」 | |
| KB | 2008/05/13 16:21 |
|
アメリカあたりだとATMが止まってもニュースにもならないですね。 トラブルがないことが良いには違いないですが、99.9% の品質を 99.99% に上げるために何億も注ぎ込むのは馬鹿げた話。 | |
| 不見不知 | 2008/05/13 16:33 |
|
>鉄道の管制システム(恐らくATOSとかCTCとかのことを言ってるのでしょうが)と
多いからなどというのは言い訳でしかないし、そんな事を言う体質である(と反論を見て想定)
| |
| いつどこななしさん | 2008/05/13 20:54 |
|
コンサル(笑)という言葉も定着しそうですね。 | |
| いつどこななしさん | 2008/05/13 21:13 |
|
いやはやQuickC程度で挫折してしまうお方のご高説は非常に勉強になります!!!111 | |
| sdf | 2008/05/13 21:35 |
|
>これが鉄道の管制システムであれば、 鉄道のシステムは安全のため止めてしまうわけです。 銀行システムにサービス停止を許さないのに 他の方が言われるとおり、比較対象として不適切ですね。 | |
| 通り | 2008/05/13 21:48 |
|
>また、 | |
| 不見不知 | 2008/05/14 10:19 |
|
>あなたはウィルスにかかっていないPCを1時間毎に1回ウィルスチェックをしているのですか?
PS:敢えて書きますが、稼働状況をチェックしているサーバーを開発したのは人ですよ。 | |
| みう | 2008/05/14 12:50 |
|
コップに水が80%入っているのを見て | |
| あ | 2008/05/14 17:36 |
|
海外で同様の障害が起きてもここまで騒がない。 | |
| mega | 2008/05/14 18:24 |
|
>この件に関するmixiや世の中のブログを見回してみると、多くの人が「銀行のシステム統合だから仕方ないよね」という論調で語っているように思えました。しかし、それって本当に正常な感覚なのでしょうか? 別に「システム利用者」だったらかまわない感覚なんじゃないでしょうか。逆に、「大規模システム統合の直後は信用ならない」という警戒感を利用者側がもつことによって、リスクを回避することもできるはずです。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:06 |
|
fさん、コメントありがとうございます。 記述が十分ではなく誤解を招き申し訳ありません。そもそも私が意図していたのは、トラブルが人命に関わるレベルの世界(医療、鉄道・航空管制、自動車制御系など)ではバグの発生を極限にまで減らすことに相当努力しているということは、こういった巨大システム統合においてもなし得る事ができるのではないか、という点でした。 もちろんバグをゼロにすることが現実的な選択肢ではないことも理解していますし、そのためにBCPが重要であることも強く認識しています。だから、三菱東京UFJさんの場合、どれだけしっかりとしたBCPが立てられていたか、これが重要だと考えています。 今回のトラブルは対外インターフェースにおける疎通確認テストに含まれる内容だと思いますが、インターフェースの仕様が誤っていたために起きた事件を想定したBCPが非常に事後対応的だったので、もう少し事前にリスクを世間(一般消費者)に示すアプローチをとった方が良かったのではないかと思っておりました。 例えば、メガバンクのシステム統合規模であれば、全国の金融機関に接続失敗時のオペレーションを何パターンか伝えておき、それを店頭や各種提携コンビニ、駅などに周知させるなど、それだけでも世間から見た障害時の影響というのは変わってくるのではないでしょうか。 話を戻します。 fさんのご指摘されている点につきましては、そういった社会影響の大きなシステムの比較対照に鉄道管制システムを挙げただけであったのですが、その文脈で「多くの人命を失う~」という表記は不適切であったと思います。失礼致しました。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:08 |
|
aさん、コメントありがとうございます。 前述のfさんコメントにも述べさせて頂きましたが、たしかに人命を失うという類の表現は適切ではありませんでした。謹んでお詫びいたします。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:13 |
|
とおりすがりさん、コメントありがとうございます。 前述のfさんへのコメントの通り、社会的な影響のあるシステム同士でのシステム運用の品質について問題提起することを意図しており、人命を失うという意味を挙げることは文脈上不適切でした。誤解を招き、申し訳ありません。誤字ご指摘箇所も速やかに修正致します。 ただ、ご指摘の通り、前もって利用者が対応できるようなアクションを促すことについては、三菱東京UFJさんはまだ余地があったのではないかなというのが私の見解でした。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:35 |
|
ケンさん、コメントありがとうございます。 別の方が述べていらっしゃる通り、欧米では銀行のATMが予告無く止まることもしばしばあるため、ハッキリ言えば日本の銀行のサービスレベルの方が断然高いと認識しています。個別には挙げませんが、ATMの利用が一時的にできなくなったとしても、直近の営業時間帯に支店に出向き、そこで用を済ませるという行動が一般的に世間に根付いているので、日本ほど大きく騒がれることはさほどありません。これは、多くの銀行、それこそ上位行であれば暫定対応手順が整備されているので、大事には至っていないという話です。 プロジェクト管理技術の未熟さという点であれば、今回のような規模のプロジェクトであれば、憶測ですが、まずないと考えています。しかし、開発要員の劣化については否定できないかもしれません。そもそも優秀な技術者だけをのべ6000人もピックアップして投入するというのは、複数の巨大ベンダーが元請で対応しているとしても、物理的にムリに思えます。重要なのは、品質を高めることと並行してBCPを立てることだと考えます。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:49 |
|
一言さん、コメントありがとうございます。 メガバンク規模の銀行システムが膨大なプログラムの上に成り立っていることはよく理解しております。前述fさんのコメントに書きましたが、確かに鉄道管制システムという比較対象は意図を伝えるには不適切であったと反省しております。 稼動しているシステム上で何が動いているかを把握することは不可能に近いというご指摘、確かに一人で全てを把握するのは不可能に近いですよね。一方で、領域ごとに担当を割り当て、彼らの持つ情報を一箇所に集約して把握するというのは、不可能とは言えないのではないかと考えます。こういうときに重要なのは、現場のトップチームがどれだけシステム状況を把握しているかでしょう。それによって迅速に障害箇所を特定し、暫定対応を立案するものだと思います。 今回のケース、例えば昨年のANAシステム障害事件のように複雑な要因によって生じたトラブルであれば、ここまで品質についてとやかく言うつもりはありませんでした。しかし、フタをあけてみると電文仕様が異なっていたことによるエラーという基本的な仕様にまつわるものであったこと、加えてインターフェース周りのトラブルが起こる確率が高いのは、過去の銀行系システム移行事例で分かっていたことなのに、そこに対するBCPに改善の余地を感じたこと、これらから銀行システムの運用品質としてどうなんだろう、というのがエントリーを書いた動機です。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:52 |
|
追加さん、コメントありがとうございます。 個人情報保護法が広まってから、確かに顧客情報にまつわるテストデータは扱いが厳しくなりましたね。一方で、今回のケースでは、電文に使われている文字の種類を仕様として確認できていれば、もしかしたら防げたかもしれないなと考えます。 | |
| NAKA@情報インフラ24時 | 2008/05/14 23:59 |
|
反論さん、コメントありがとうございます。 発生した事象によって直接的に影響を受ける人はご指摘の通りそれほど多くなかったかもしれません。ただ、三菱東京UFJさんが万難を排して取り組んだプロジェクトであったからこそ、些細な使用確認ミスから生じた障害に残念な気持ちを持った人は多かったのではないでしょうか。 鉄道管制システムを比較対象に用いた点につきましては、fさんのコメントに示した通り、適切ではなかったと反省しております。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:11 |
|
KBさん、コメントありがとうございます。 おっしゃる通り、コストを度外視して品質を極限にまで高める必要はないと私も考えますし、どう頑張っても100%のレベルに達することは相当の困難であると認識しています。だからこそ世界規模でBCPに対するニーズが高まっているのでしょう。 とはいえ、安全神話とまで言われた日本、その品質の高さを維持しようという努力や気持ちをIT業界の人間はもう少し持っても良いのではないかとも思います。外資系に勤める私が述べるのは僭越ですが、世界的に見ても日本のシステムサービスレベルは高く、それを維持するために様々な努力が開発・運用現場でなされていることを知っています。この高いレベルを維持するために、高い品質管理の目で考えることは望ましいことだと考える次第です。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:16 |
|
不見不知さん、コメントありがとうございます。 意を汲み取って下さりありがとうございます。まさにそういった気概の話を含めてお伝えしていました。100%障害の無いシステムが理想でしかないからこそBCPが必要になってくるという話でありますが、そもそも今回の障害はかなり基本的な(仕様確認レベルの)テストでチェックするものだとニュースソースから判断したので、このような厳しいとも取れる意見をした次第です。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:26 |
|
いつどこななしさん、コメントありがとうございます。 不十分な説明、適切でない比較対象のために様々な疑問・誤解、恥ずかしい限りです。QuickCは当時小学生だった私にはかなり難しいツールでした。著名なプログラマの方も述べていましたが、今にして思えば、作りたい対象もなかったのにプログラミングの教科書をめくっていたことで、興味を失ってしまったのだと後悔しています。 設計と開発の担当者が異なるゆえに正しく仕様が伝えられていないということは、今回の件ではまさに当てはまるのかもしれないと考えています。情報システムの担当者レベルで打ち合わせた内容が正しく開発ベンダーに伝わっていない、開発ベンダーから挙げられた確認項目が正しく相手先の担当者に伝わっていない。いずれも障害原因の上位に位置するものです。ただし、これも突き詰めれば、個々人が自分に与えら得た役割をどれだけ果たせるかという点に帰結するため、そこでの不十分さを吸収できる体制をどこまで築き上げることができていたか、ということが最大の問題なのではないかと考えます。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:31 |
|
sdfさん、コメントありがとうございます。 fさんをはじめとする様々な方にご指摘頂きました通り、比較対象として不適切でした。誤解を招き申し訳ありません。エントリーを書いた際には、鉄道管制システムが誤った信号を列車に返すことで対向列車の路線に侵入し、衝突するということでもあれば人命が失われるような事態も起こりうるだろう、という考えで挙げておりました。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:36 |
|
通りさん、コメントありがとうございます。 私の意図で解釈するのであれば、本来IDSなどで除外されるべき基本的なウイルスが除外されず、端末のウイルスアラートに検知されてしまって、そのPCがネットワークから遮断されてしまった、というシチュエーションになるのかなと思います。これって、仕様通りIDSで除外されていれば、端末は停止しなかったかったのではないかなと。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:44 |
|
みうさん、コメントありがとうございます。 ある意味では狭量という方もいるだろうと思ってはいます。しかし、その品質を当たり前と考えるのではなく、常にもっと高い品質を作り上げることに目を向けてシステムを生み出すことを続けていると、そういった厳しい視線を持たなければ、品質を維持することは難しいと考えます。私自身は外資系企業に勤めておりますが、米国の水準が何でも優れているとはまったく思いませんし、グローバル標準と呼ばれるものにも、日本のこれまでの品質管理の目線からすればレベルの低いものもあります。だからといって、低いレベルに合わせようと楽をするよりは、世界に名だたる品質を維持するように努力する姿勢が重要ではないかと考える中、巷ではかなり基本的な電文仕様の確認レベルのバグに対して優しいコメントがほとんどであったため、敢えて苦言を呈するエントリーを書きました。 最初にこういった意図を分かり易く提示できていなかった点、申し訳ありません。 | |
| NAKA@情報インフラ24時 | 2008/05/15 00:53 |
|
あさん、コメントありがとうございます。 最初のfさんへのコメントに記した内容や他の方へのコメントの通りですが、海外では当たり前という感覚で済ませてしまうのは、せっかく世界でも最も品質に厳しいと言われる国でシステムインテグレーションをしているのに勿体無い気がします。こういった環境で世界に名だたるIT品質管理方法論を生み出すことが出来れば、日本のITベンダーは世界での影響力をさらに強めることができると思います。 UKの政府組織のITプロジェクトから生み出されたITILが今や世界30カ国以上でITサービスマネジメントのデファクトスタンダードになっていることを考えれば、日本の超大規模SIプロジェクトから新たなスタンダードが生まれても不思議ではないですよね。 そういうイノベーションを生み出すには、品質を突き詰める姿勢を持つことは有益であり、そういう意味で「不具合は絶対にある、という感覚でテストをする」という姿勢は重要だと述べております。分かりにくい表現で申しわけありません。 | |
| NAKA@情報インフラ24時 | 2008/05/15 01:02 |
|
megaさん、コメントありがとうございます。 おっしゃる通り、システム利用者の立場の方が好意的な目線で接してくれることにはありがたいと思いますし、複雑なシステムの統合作業がいかに困難を極めるかということが世間にも理解されてきたのだと思います。 一方で、同業者の方々が書かれているブログ等でも同じような論調が多く、その理由も「メガバンククラスの巨大システム統合ならちょっとした変更でもトラブルが出て当たり前」というものが多く見られたので、頑張れば防げるエラーならば防ぎましょうよ、という意図を込めて書いたエントリーとなっています。 利用者のリスク回避については、先週末に三菱東京UFJ銀行でシステム統合の一部が行われるということを、他行利用者は知らない状況にあるかもしれない、というケースでの事前告知がなされていなかったという点で、まだ改善の余地はあったのではないかなと思いました。 | |
| 大陸浪人 | 2008/05/15 13:59 |
|
システム開発は、中から見るのと外から見るのとは大違い。具体的にどういう風になっているのを知らないでおっしゃっているんでしょうね。多分プログラムを書いたことも見たこともないんでしょう。 | |
| kens | 2008/05/15 15:44 |
|
>安全神話とまで言われた日本、その品質の高さを維持しようという努力や気持ちを
| |
| みう | 2008/05/15 18:34 |
|
追記を読みました。大規模システム開発において「バグの発生を極限にまで減らすことに相当努力してい」ないと考えているという事ですよね。そう読まれても仕方がない文章です。バカにしすぎです。 100万件以上のテストが行われ、ほぼ全ての機能が正常動作している事実を無視して1件の些細な漏れをあげつらって「努力してない」というのはあまりにもひどい。 そして、エラーがあった際に縮退運転する、という点では鉄道と同じアプローチを取っているわけですが、その点についてはいかがですか? | |
| kent | 2008/05/15 18:46 |
|
>そもそも私が意図していたのは、トラブルが人命に関わるレベルの世界(医療、鉄道・航空管制、自動車制御系など)ではバグの発生を極限にまで減らすことに相当努力しているということは、こういった巨大システム統合においてもなし得る事ができるのではないか
開発の話ではありませんが、たとえば一般的な用途に用いられるサーバの場合、必ず「ハイセイフティ用途(いわゆる医療や航空宇宙関連などです)」には使用してなならない旨の警告が付されています。
| |
| KB | 2008/05/15 18:57 |
|
こういう方々がマスゴミ共と連携して世間を盛り上げて、不毛な国に仕立て上げていくわけですよ 生活の全てが過剰品質 100Mの光ファイバー回線が、ベストエフォート型であれば月額数千円だけど、ギャランティ型を要求すれば月額数百万円かかるわけですよ。 公共サービス全てにギャランティ型を要求する馬鹿な国民 だから超借金大国になる。 | |
| sdf | 2008/05/15 22:14 |
|
>トラブルが人命に関わるレベルの世界ではバグの発生を極限にまで減らすことに相当努力している こちらの書き方がまずかったのか、まだ理解されてないようで… 鉄道システムで人命に関わるレベルのトラブルは確かに起きていません。(福知山線の件は防ぐシステム自体が備わってなかった) 今回の件は鉄道システムにおける信号トラブルレベルの障害でしょう。 鉄道の信号障害や今回の件のような | |
| Chi | 2008/05/16 16:05 |
|
PG2年、社内インフラ設計/運用4年程度やって最後の最後で体壊した若輩者です >品質至上主義により、どれだけIT業界の現場が逼迫し、「IT業界に入ると人間らしい生活ができない」 品質至上主義に踊らされた会社役員のせいで、ある業務の障害で一度障害を起こしたシステムの監視を 情報メディアの曖昧な説明や正論が古い体質の会社でシステムを背負わされる者を | |
| Chi | 2008/05/16 16:11 |
|
日本語がおかしいので訂正します。 追記> | |
| NAKA@情報インフラ24時 | 2008/06/01 21:44 |
|
大陸浪人さん、コメントありがとうございます。 おっしゃる通り、外から見るのと内から見るのでは大違いであることに私も同意します。それを認識しておりますので、起きてしまったことについて部外者が責任を追及するようなことを述べるつもりはありません。私が気になったのは、初歩的に思えるインターフェース周りの障害が起きてしまった原因であり、負荷がプロジェクトに生じていたために、テストに不慣れな人材をテスト工程に登用せざるを得なかったということはなかったのかという点でした。これほど大規模ではありませんが、私も多段階サービスリリースを伴う基幹系システムでテストやプログラミングをしており、過去の経験から状況を推察した次第です。
品質至上主義によってムリなサービスレベル要求を突きつけられているシステム運用の現場は私も存じておりますし、そういった状況を改善することにこれまでも積極的に取り組んできておりました。kensさんが述べていらっしゃる、「品質を高めるためのモチベーションさえ削られてしまう状況を作り出しているのは日本社会(企業)の間違った考え方である」という言葉、まったくその通りだと思います。その状況を改善するアプローチとして私が考えているのは、ITサービスの提供側がイニシアチブをとってサービスレベル要求の再考を促す組織の構築です。決して労働時間を増やして無理やり品質を上げることだとは考えていない点をご理解頂けると嬉しいです。
誤解を招く表現を用いてしまったことをお詫びします。決して関係者の方々を誹謗する意図はありません。みずほ銀行の前例もあり、金融庁からは「バグの発生を極限まで減らす」プレッシャーが今回のシステム統合に向けられていたような情報を過去の記事で見知っていたため、今回はどのような品質保持体制を敷いていたのかが気になっておりました。他の方のコメントにも書きましたが、その些細過ぎるエラー内容ゆえに、どうしてそのような見落としがあったのだろうと疑問に感じたことがエントリーの発端でもあります。鉄道の縮退運転との比較ですが、例えばJR東日本では中央線の大規模工事(それによって信号機がストップすることもあるでしょう)を実施する前には利用を控えるような告知がなされるのに対し、今回も同じように事前に利用を控えるような代替利用の提案がなされていれば、もっとスムーズであったのではないかと述べております。
おっしゃる通り、ビジネスの効用とコストのバランスを考えれば、何が何でもバグを減らすというのは理想論であり、それをカバーするための事業継続性計画が重要だと私も認識しております。最初のエントリーで少々過激な表現を用いてしまったのは、タイトルに書いたとおり、「当たり前」という表現の多用が品質改善の意識を希薄にしてはいまいか、という私なりの懸念でした(杞憂であれば幸いです)。一方で、今回のシステム統合における障害発生を残念に思っているのは、これが11万人月という銀行・金融庁・SIerの威信を賭けたといっても過言ではない状況でもサービスに影響のあるバグが発生したという点です。これでより一層、ITILで述べるとろこの復旧計画が重要であることが再認識されたと感じております。
過剰品質に関するお考え、ごもっともです。私もコストに見合わないサービスレベル要求は棄却すべきだと考えます。ご提示下さったネットワーク回線の価格の通り、ベストエフォートではなくギャランティを強めれば指数関数的にコストもかかりますね。私が今回のシステム統合で感じたのは、ベストエフォートではなくギャランティを求めている金融庁の存在を意識して、莫大な対価(11万人月)を費やしてでも限りなくバグを減らしたいという特殊背景があったのではないかと推察しており、それでもやはりバグが生じたことについて一連のコメントを書いておりました。
他の方のコメントにも書きましたが、sdfさんが仰っていることは十分に理解しております。そもそもは「気概」の話でした。私の表現が誤解を招くものであり、お詫びいたします。鉄道自体もご指摘された信号トラブルのような軽度障害は頻発しており、今回のトラブルがこれと同レベルの障害であるというご指摘は私も同意致します。一方で、関係者・特に金融庁などが投げかけた期待は並々ならぬものがあり、これが11万人月という途方も無い工数をかけた結果の障害であることについて、疑問を投げかけておりました。鉄道に例えるなら、「超大規模な駅舎を通常の倍以上の人員で工事した結果、旧線路・ホームから新線路・ホームへの切替は完了していたのに、ささいな不備があって一部信号が赤信号のままのため、始発車両がホームに進入できなかった」というケースで、なぜそんなにたくさん人がいたのに気付かなかったのかと疑問に思っているのと同じです。いくら手間をかけたところで障害は無くならないんだ、という結論を再確認したと思っております。
大変過酷な状況をご経験されたことと推察します。私自身、Chiさんと同様の憂き目を経験しており、お気持ちは理解しております。同様の経験後、私はビジネスの重要性に応じてITサービスのサービスレベルを考えるべきであり、そこには内部・外部コストを考慮した上で、現場に非人間的な生活を強いることのない(つまりある程度の余裕がある)体制を築き上げることを提言・実行して参りました。正論だけが全てではないことも十分理解しております。このエントリーで述べていることは、11万人月という途方も無いプロジェクトの結果に対する疑問点ではあり、それがそのまま全てのシステム運用現場に適用されるものではないことをご理解頂けると嬉しく思います。その点につき、Chiさんのおっしゃるような誤解を多くの経営者に与えかねないという指摘、真摯に受け止めております。 | |

富士通元社長の山本卓眞氏が残した次代へのメッセージ
Facebook就活はもう古い?
東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
東北から始まるイノベーション
貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦