切った張ったの現場でバックアップに切り替える判断
昨日、ようやく抱えていた自社主催イベントが終わりました。今回の役割は今までの全体の仕切りではなく、一つのコーナーの責任者。高々1.5日でしたが、非常に注目されているお題が担当で、機材の調達からコーナーでのプレゼンテーションの準備、超短期間での紹介映像の制作、そして現場でのシステムオペレーション&説明員と、久々にピリピリした数週間の集大成のような現場でした。
実験機材故の恐ろしさ
映像制作については前のエントリーで触れましたが、最終的には気合(笑)で間に合わせてしまいました。でも、現場に入ると気合はもちろん必要なのですが、下手に気合を入れるとコケるのが展示物。特に実機稼働となるといろんな事が起きます。それも製品レベルだと、まぁ誰かが助けてくれるわけですし、プロトタイプでもその気になれば代替機も用意できます。でも、今回は、本当にワンオフ、完全手作りの実験機材を1.5日ぶっ続け稼働です。プロトタイプ以前の機材。コレ自体はもっと長い時間連続稼働させた実績はあるのですが、正直何が起きるかわかりません。
ということで、完全に現場のイベント屋に戻った頭の中では、この機材を使うと決めた瞬間にバックアップを考えます。何かアプリケーションの本番稼働させているものではありませんが、最悪はお客さまの目の前に堂々と「調整中」とかの札を出すハメにも陥ります。というか、過去に何度もそういう目には遭って来ました。「調整中」の札の横で間抜けな顔をして立ってるのだけは嫌です。嫌なことは嫌なので、そうならないように何をどう調整するのか、駄目な時にはどういうモノに切り替えてみてもらうか、この状態ならこうやって、それでも駄目ならこうやって・・・ 文書化するかどうかは別にして、実は結構ちゃんと考えています。取り越し苦労に終われば幸せ。でも大抵は、やっぱり何か起きます・・・ というか、いつとは言いませんが、実は今回もそんな事態が起きてました。
気が付いちゃいました。機材が固まっていることに。
ずっとコーナーに立っていたのですが、お客さまが一番多い時間にふと気が付くとクライアントPCの画面が固まっている。
「あちゃー。クライアントのアプリケーションが落ちたかな?」
とりえあず端末側のアプリケーションを再起動・・・ だめです。
「サーバーかなぁ?」
ブースの裏に置いているサーバーのWindows Serverの幾つかの画面を確認しましたが、こいつは普通に動いてる。
「まずいな。途中の機材か?」
実はお客さまに稼働状況を見せるべきメインの機器とLANとの間でトラぶっているらしい。この機材のコンソールを叩いて状況を見たのですが、エラー自体は上がっていない。でも繋がらない。繋ぎなおす必要があるのは事実。でも実は間の接続を復活させるためには、一旦全ての機器をShutdownして、悪いことは全部忘れてもらって、正に朝一番で立ち上げた手順をもう一度踏まないと復活できないということはわかっています。これには時間がかかる。今はやりたくない。そもそもそれで復活できるかどうかの確信が持てない。ハードウェアのトラブルだとその後のきり戻しが大変で、下手をすると現場では対処できなくなる。
「とりあえずバックアッププランA発動だ」
とりあえず間の機器が不調になった時用のバックアッププランを実行です。この切り替えは瞬間にできるように段取りを考えていました。ただ、LAN上で変なデータが流れてセッションが途中で落ちてしまったので、復活できない。LAN上の経路情報の更新も上手く行かなくてセッションを復活できない。これは想定外。
「しゃあない。バックアッププランB発動だ」
クライアントPCのディスクに予め仕込んであったデータを使って、表面上・・・というか、お客さまから見て、今までのデモが継続しているように見えています。でも、パフォーマンス・モニターは隠したままです。だって、ネットワークに何も流れていないのですから。
機材のパイロットランプも適当に点滅しています。何となくそれっぽく見える。でも正しい姿ではない。そもそも通信屋が通信していない状態のデモを見せている。これは信義の問題ですが、現場を預かる身としては許せない。
立ち上げなおすしかないな
バックアップは所詮バックアップ。イベントのデモのバックアップはそもそもフェイルセーフのためではなく、見た目を継続させるためだけのバックアッププランです。見た目のインパクトは最小限にしますが、元に戻す時間を稼ぐためだけのプランです。本番が終わるまであと2時間。このまま最後まで行っても誰からも怒られることは無い自信はあります。でも気持ちが許さない。
「バックアッププランC発動。全部落として立ち上げなおす。全部のShutdownと再立ち上げの段取りをもう一度確認しよう。あとはタイミングだけ。」
実験機材ですから、元々長時間の連続稼働を考慮されていません。やっぱり一度悪いことは全部忘れてもらうために、完全に全体を再立ち上げしなおすしかない。そう決めました。
ここでちょっと冷静に考えるために一旦コーナーを離れて、手順書を確認しながら時間の計算。隣の部屋でやっているカンファレンス・セッションの終了のタイミングを外さないと、どっと流れてきたお客さまの前で再立ち上げとネットワークの切り戻しの作業をする羽目になります。そもそもお客さまが集中するので、説明に忙しくてやっている暇は無い。そんな最悪のタイミングだけは避けたい。でも一刻も早く正常な状態にしたい。
ということで、作業に必要な時間を計算し、周りのスケジュールを確認してからコーナーに戻り、一緒に担当している若いスタッフに一言。
「今のお客さまの波が収まったら全部立ち上げなおすぞ」
「全部落とすんですか?」
「落とす。間違えなきゃ5~6分でいけるはず」
久々にお客さまの目の前で堂々と立ち上げなおし
結局関連機材を電源まで全部落としてから再立ち上げ。バタバタしても仕方ないので、ここは堂々と作業進行です。質問をしてきたお客さまもいらっしゃったのですが、ここは素直に「少々お待ちください」と告げて、バックアッププラン実行の為に切り替えたLANを元に戻し、一旦機材の電源を落として3分待ってから電源再投入。順番にいくつもの機材のコンソールを順番に確認し・・・ あれ?正しいメッセージが来ない・・・ たかだか20秒くらいがとても長く感じられます。来ない・・・ 来ない・・・ 来た!
そのあと幾つかの手順を踏んで確認したと、最後にクライアントPCのアプリケーションを起動してテストすると一発でOK!
「ふぅ」
勝負時間が短い分、全てが凝縮されるものです
やり直しが効かない、しかもお客さまに接することが出来る時間(私は勝負時間と言っていますが)が非常に短いのが展示会系のイベントですが、そこでトラブルが起きている間にその場に居合わせてしまったお客さまには必要な情報を提供すること自体が不可能になってしまいます。止めたくない。止まっては困る。でも止まってしまった。トラブルが起きてしまった。さて、どうする?
あまり楽しいものではない緊張感ですが、バックアップの手順をきちんと考えて、それを実施して、でも必要な処置をやって復活させて、最終的にお客さまや社内外の関係者への義理を果たすのが役目・・・ といってしまうと格好良すぎですね。単に「お前が間抜けだから駄目なんだよ!」と言われたくないだけなのかもしれませんが(笑