過去に一度目は通していたけど精読していなかったし、今後改めて監視強化したいと考えたので読み直した。
気になったところ
「監視の原則」の重要性
監視の原則や基礎を伝える上ではよい本だと改めて感じた。 特に第1部の監視の原則については今後も通用する内容であり、今後も記憶に留めておいた方がよいと感じた。
「デザインパターン2: ユーザ視点での監視」は自分の中では理解できていても、社内への周知が十分でないと感じるケースが多々ある。 「3章 アラート、オンコール、インシデント管理」は自分も実践できていない項目が多々あり、特にオンコール対応やインシデント管理の取り組みは改善の余地がたくさんある。
先日 Incident Response Meetup vol.1 に参加したとき、PagerDutyのインシデントレスポンス対応ドキュメントへのリンクがインシデント管理の章に掲載されていることを再認識した。
クラウドベースのサービス監視への取り組み
第2部の監視戦略について、監視対象に関する説明や取り上げている内容はオンプレミス環境を想定しているのか若干内容が古くなっている。 原則自体は変わっていないが、パブリッククラウドベースだったりコンテナベースのサービスを想定するとすぐに活用できる内容ではなくなってきている。
特に「8章 サーバ監視」や「9章 ネットワーク監視」は知っておくとパブリッククラウドにおける監視にも活用できるが、直接取り扱う情報ではなくなってきている。 「10章 セキュリティ監視」もパブリッククラウドにおいてはこれ以外にも重要な監視項目はたくさんある。
この書籍の内容は参考にしつつも、パブリッククラウド上において実践する上ではどのように取り組むべきか再考する必要がある。
情報の解像度が低い
そもそもが原則を伝える本であり、タイトルの通り監視の入門(原題ではPractical Monitoring)である。このため、この書籍だけでは具体的に監視に取り組むには情報が不足する。
「3章 アラート、オンコール、インシデント管理」よいアラートの仕組みを作るための6つの方法や、オンコール対応やインシデント管理の取り組み方が挙げられているが、実践しようとすると考えるべきことがたくさんある。付録Aには手順書の例が記載されているが、これが何かしらの問題解決に繋がるようには見えない。 「7章 アプリケーション監視」はパブリッククラウドベースのサービスにおいても重要な内容ではあるが、この章は20ページ程度と情報は足りていない。 また、この書籍では取り上げられていない、オブザーバビリティやSLI/SLOといったSREに関するプラクティスも非常に重要になってきている。
各章や節の内容が1冊の本になる程度には深いトピックを扱っているので、この書籍を起点に監視の取り組みを具体化していく必要がある。