自社の障害対応が場当たり的になっているのでもう少しどうにかしたいと思って参加した。 やはりどこの会社も事前準備がきちんとできており、障害対応に対する心構えとか、障害対応時に余計な判断をさせない対応はすばらしいと感じた。
incident-response.connpass.com
システム障害対応学んでいきたい勢におくるインシデントコマンダー超入門
インシデント対応は「非定型的で非計画的」なのでインシデントコマンダーの育成が難しいという表現が心に残った。 復旧要件を定める必要があるほどの大規模障害は数えるほどしか経験ないけど、確かにそういうときほどインシデントコマンダーの役割が重要になるので、自分自身がもっと障害対応に強くなりたいし社内での対応強化に向けて取り組みたい。
オンコール担当がインシデントコマンダーを担う仕組みづくり
非定型な作業だからこそ、定型作業となる部分をslack botなどの仕組み化に取り組むのはものすごく正しい。 ビジネスサイドとのコミュニケーションが重要だからこそ用語や説明が丁寧なのもよい取り組みに見える。
最速でサービス復旧をするための備え
事前準備が重要というあたりまえの話ではあるのだけれど、役割や対応フローが細かく定められており、これが事前準備かと感心させられた。
Wantedlyの障害対応文化とそれを支える基盤
障害対応に向けた心構えが非常に整備されており、こういった心理的安全性を担保してくれていると比較的安心して障害対応に取り組めるだろうなと感じた。 こういった心構えを支える取り組みは自分はまったくできていないので特に参考になる。
直接関係ないけど、WantedlyはHoneybadger使っているんだなと気になった。自社以外で使っているところほとんど見なかったので。