トラブルが発生したら

​最近ではセキュリティ問題に対応するCSIRTを組織するところが増えています。
しかし情シスでは、セキュリティ以外にも様々なトラブルに対応しなければいけません。
特にネットワークやサーバーといったインフラ関連のトラブルを含むシステム障害は、問題の切り分けから原因の究明、そして最終的な復旧対応まで、かなりの時間を要することがあります。
その時、どのように対応すべきか、いくつかの心得(テクニカルなことではない)をお話します。

​まず初動ですが、おそらく、トラブルが発生した際の初期対応は、各社で決められていると思います。
「トラブルが及ぼす影響範囲はどこまでか」とか、「とりあえずの回避策はあるのか」などを把握し、あらかじめ決められた連絡ルートで周知させるでしょう。
焦らせないこと

​問題はここからです。
原因究明と解決・復旧に努めていくわけですが、要所要所で、トラブルが発生したチームリーダー(課長であったり、グループ長であったりしますが)は、部門長への報告が必要になります。
また、それが大きなトラブルに発展しそうな場合、情シスの部門長は経営層に対する説明も必要になります。
そして大抵は、経営層やユーザーからの圧力に耐えきれなくなった部門長やリーダーが、担当者を焦らせることになります。
こうなったら、もう最悪。
焦らされた担当者はミスを犯し、取り急ぎの応急対応が更なる障害を誘発したりします。
そこで、まず重要なのは、部門長やチームリーダーが、担当者を焦らせないということです。
トラブル対応時に焦らせても、何一ついいことはありません。
部門長やチームリーダーは、ある意味、外野(経営層やユーザーなど)からの防波堤にならなければいけません。
復旧見込みのお知らせ

それでも外野からの「いつ復旧するんだ」という催促に耐えるのは厳しい時があります。
でも、”根拠のない”復旧見込みは、決して言ってはいけません。
その場合は、例えば「調査して、1時間後に復旧”見込み”をお知らせする」としたらいいでしょう。
1時間の間に、このトラブルがどれくらいの深刻さなのかを、大まかに見極めます。
もちろん、その見極めが外れることもあります。
なので、予想よりちょっと長めに(もしくは幅をもって)お知らせをします。

例えば、
  • 30分くらいで直りそうな時は、「1〜2時間」
  • 1〜2時間はかかりそうな時は、「数時間」
  • ちょっと予想が難しい時は、「とりあえず今日いっぱいはかかる」
  • 機器の故障で部品交換などが必要な時は、「2〜3日」
など。

​予定より早く復旧できる分には誰も文句は言いませんし、早く復旧できた場合でも、再発の危険性があるかもしれず、復旧後の様子見の時間も考慮しておくという意味合いもあります。
日をまたいでも復旧できなさそうな時には、一応の目安は伝えるものの、「詳細は明日の朝、改めて連絡する」とする方がいいでしょう。
チームリーダーの役割

さて、チームリーダーの役割ですが、調査方針や対応方針を定め、担当者に指示したら、後は担当者を信じて待つだけです。
よく、担当者の後ろにいて作業中にアレコレと口出ししたり、腕に覚えのある人なら、自ら手を動かしたりしがちです。
しかし、チームリーダーは「責任者」として、全体を統括できるように、上がってきた情報を整理し、次の一手はどうするかなどの検討に専念すべきです。
何故なら、担当者は、ともすれば原因究明に入り込みすぎるあまり、「復旧させる」という意識が薄れがちになることがありますが、そんな時、チームリーダーが、方向性を修正してあげる必要があるからです。
チームリーダーが一緒になって作業すると、担当者と同じ迷路に入り込んでしまう恐れが出てきます。

​「担当者を焦らせてはいけない」「担当者を信じて待つ」と前述しましたが、このような迷路に入り込まないようにするためにも、30分〜1時間ごとに、どのような状況になっているか、担当者から報告させるようにします。
そして、その状況を整理・判断し、適切な対応ができるよう指示をしていきます。
同時に、この現状を部門長などにも報告するようにします。
そうすれば、上からの無用な圧力も(上も心配でしょうがないのです)、ある程度は防げるはずです。
担当者からの報告を聞く姿勢

担当者からの報告を聞く時も、じっくりと耳を傾けてあげましょう。
得てして、技術屋は話すのが苦手だったりします。
トラブル発生時は、何かとイライラしがちですが、ここで数分慌てても仕方ありません。
そして、調査や対応が長引くようであれば、適宜、休憩などもとるように心がけてください。
一度、のめり込んでいた状態を緩めるだけで、原因の新たな可能性に気づくことができるかもしれません。
迅速に対応することと、慌てたり焦ったりすることは違うということを心得ておくことが大切です。
【教訓】トラブル対応時の心得
焦りは更なる悲劇を生む
  • 担当者を焦らせない。
  • 部門長やリームリーダーは、外部(経営層やユーザーなど)からの防波堤になる。
  • 復旧予定は、予想よりも長めにアナウンスする。
  • チームリーダーは、指示に徹し、自ら手を動かさない。
  • 30分〜1時間を目安として、担当者に進捗状況を報告させる。
  • 適宜、休憩をとる。