バックアップ、レプリケーション、アーカイブ、スタンバイなどなど
東証でのシステム障害に関して原因がマニュアルの不備だと判明したそうです。
東証システム障害はマニュアルの不備 富士通「確認が不十分だった」 関係役員の処分を検討
https://www.itmedia.co.jp/news/articles/2010/20/news141.html
マニュアルを疑う必要はまったくないとまでは言いませんが、それでもマニュアルを疑い始めたらキリのない世界です。再発防止策の中でマニュアルのどの範囲を、誰が(納入メーカー or 発注者 or 構築ベンダ)が、どのようにして(テスト?机上検証?)、確認するか(テストツールのログ or 紙で残すのか or カオスエンジニアリングに含めて壊し続ける)みたいな話をこれから検討していくのだと思います。
東証は社会のインフラとはいえその姿はやはりソフトウェア寄りなものです。重工業などのモノづくり系の会社ではマニュアルを始めとした文書類のあらゆるものがバージョン管理されていて、ある文書を書く側が変更するときにはこの文書はどこどこで参照されているはずなんていうことが分かり、また読む側も疑ってかかるときには最新バージョンが何かを文書番号から検索できる仕組みなんかがあるような話を聞きます。そこまで頑張るならシステムでやらないとヒューマンエラーのほうが怖い気もしますし、最新であることを確認しても今回のような誤記誤植はやはり対策しきれないと思います。何か銀の弾丸的なものはないのでしょうか。(形式手法とかなのかもしれませんが)
さて、このような事件では「バックアップ」が連発されます。
自動バックアップ、5年間オフのまま 東証システム障害、富士通のマニュアルに不備
https://www.itmedia.co.jp/news/articles/2010/20/news105.html
間違っているわけではないのですが、バックアップの意味するところとして
- 複製(データ消失への耐性)
- 代替(サービス停止への耐性)
この2つが同じような文脈で使われることが多いように感じます。また、今回はディスク障害でしたが代替という意味では2号機に切り替わっており、その2号機にはデータが複製されておりました。この2つが同時に登場することが多いので余計に分かりにくいですね。
そのためエンジニア同士では複製はレプリケーションやミラーと言い、代替は構成を作るという意味ではバックアップと言うことも多いですがHA(えいちえー:ハイアベイラビリティ)や多重化、冗長化など、物品としてはバックアップ機やスタンバイ機やサブ機などとも呼ぶことがあります。
例えばほとんどデータの載っていないようなサーバなのでデータ消失を考慮しなくても良いけれども、1台落ちてると応答性などが低下してしまう場合にはデータの複製はせず、代替機を構築しておき、自動で切り替わる構成にしておきます。これも「自動バックアップ」ですね。
今回のようにディスクが2台あって、片方が死んでも待機系がすぐさまに起動してきて影響を極小化するのも「自動バックアップ」です。
一方でユーザーが勝手に触れる共有フォルダのような仕組みでは誤消去やランサムウェアへの備えもしなくてはなりません。今時であればスナップショットという仕組みでデータがどのように変更・削除されたかの履歴を記憶しておくことで元に戻せる構成が多いですが、それでも夜間にデータの複製を作って1週間くらいは残しておくのも「自動バックアップ」と言えます。
それとたまに長期保存データも「アーカイブバックアップ」や「コールドバックアップ」なんて言います。これは前述したような間違えて消してしまったというような話ではなく、半年や1年後に発覚した内部犯行やサイバー攻撃、不正アクセスなどを後から分析したりするためにデータを長期的に保存する仕組みです。
更にこじつけ気味ではありますが、BCP/SCP(事業継続計画/システム継続計画)で破滅的な事象が生じたときの代替復旧策をバックアッププランと呼んだりもします。これは正規の回復プランが通用しない場合の最終手段ですね。今回の東証の障害でも「昔の場立ちをしていた証券マンが立ち上がったりして」なんていうtweetをいくつか見かけましたが、システムの代わりを人間でさばくというのも立派なバックアッププランです。損なわれた売買機会は3兆円に近いそうなのでさすがに人海戦術でもなんともならないと思いますが。。。
そういうわけでバックアップと聞くとお客様が何をしたいかを正確に把握する必要があり、早とちりには注意が必要です。もっとも、こうしたニュースが流れるとメディアの方も大変ですね。もしも会見で
バックアップ構成としましては、バックアップ機への自動バックアップがあり、バックアップ機上のバックアップデータはほぼリアルのバックアップだったため正常だったものの、結果としてサービスを再開させることができなかった。開局前の難しいタイミングでサービスダウンが生じたことで今回のような事態になったわけだが、そのようなクライシス級のインシデントに対しても証券会社を巻き込んで開局前のジョブを正しくリランさせるようなバックアッププランが必要かもしれない。
なんて発言が飛び出したらどのように伝えるのでしょうか。私ならもう鍵かっこに突っ込んで読者のリテラシに委ねたくなりそうです。