2024-08-03(土) - 2024-08-04(日)で開催されたSRE NEXT 2024にオンライン参加した。
気になったセッション
試聴したセッションのうち、特に気になった/記憶に残ったセッションは以下の通り
資料まとめは 以下にある。発表アーカイブも後日配信されるとのこと。
組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜
インシデント対応に組織的な取り組みを実現する上で、成熟度モデルを作成したという取り組み。 インシデント対応の組織的な取り組み方を改善したいと思っても、具体的にどこから着手すればよいのか難しく感じていたのでこのような成熟度モデルを利用することで組織での対話を促し改善の足掛りにするのは非常に有効な取り組みに思えた。
Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織
1つの会社でCentral SREとEmbedded SREという複数SREタイプを構成する場合の取り組み。 マルチプロダクトで各チームの裁量を大きくする上ではEmbedded SREの役割の比重が大きくなるという分担のバランスには納得。とはいえ、各チームに2-4名のSREが配置されているというはだいぶすごい気がする。 Central SREとEmbedded SREの役割分担についてベースラインを設定したいか、という判断軸を持つのも納得。一方で、知見や利用ツールが共有できないという課題もまあそうだよなという印象。
コミュニケーション活性化は現在強化中で今後も改善していく様子なので、具体的にどのように改善していくのか気になる。 また、ベースラインを設定するためにCentral SREが集中管理しつつ、特定チームではよりカスタマイズしたい場合にどのように対応していくのかはよく発生しそうなケースとして考えられるので気になる。
SLO を満たせなくなったら
障害によりSLIがSLOを割り込んだとき、特にポストモーテムなどでリスク分析する方法の発表。 障害検知時間や障害復旧時間などのインシデントの要因に着目して改善する、ポストモーテム時に人を責めず心理的安全性を担保する、といった取り組みや、 リスクごとの年間停止時間を見積りリスク分析するという方法を提示している。
特に年間停止時間の見積りから想定リスクについてコミュニケーションを取り、インシデント対応時に利用するplaybookを作り込んでいくというアプローチはよさそう。 なかなか再利用性の高いplaybookを作成することに課題を感じているものの、想定されるリスクについて関係者間で認識を共有するためのステップとしては有効に思える。
プロダクト全体で取り組むSREing:イシューから始める信頼性/生産性向上の実践
SRE活動に取り組む上で、闇雲にプラクティスを導入するのではなく、イシューからはじめて解くべき課題を見極めようという話。 信頼性の階層をベースとしたアプローチや、VSMによる可視化と問題の特定、事業特性を踏まえた優先度付けなど、具体的なアプローチが参考になる。
自分もSRE導入で上手くできなかった経験があるので、このように解くべき課題を見極めることは重要だと実感するし、今後再導入するときの大きな助けになりそう。
敵対的SRE: 300個のジョブをAIチーム全員で支える技術
SREと開発メンバが良いフィードバックループを作成することで、多様かつ大量のジョブの監視を実現する取り組み。 SREが監視を作成し、メンバが運用する中でよいフィードバックを互いに与えながら信頼性を実現している。
このような取り組みは、Embedded SREとしてチームの垣根が無く質の高いフィードバックを与えやすいチーム構成だからこそ実現可能に思えた。 チーム外のEnabling SREが監視項目を作成するとどうしても作成のフィードバックループが遅くなるし質の高いフィードバックを得ることが難しくなりそう。
その他
オフライン参加について
人が多い場所が苦手なこととオフライン参加の手軽さから、オフライン参加を選択した。 実際、会場への移動や会場内での移動が省略できて、快適にオンライン試聴できたことはよかった。このあたりはオンライン参加の手段を提供してくれた運営に感謝しかない。
とはいえ、現地で他の参加者や発表者とのコミュニケーションが取れないことは明確なデメリット。 このあたりもっとSREの経験を積み、自身の考えを蓄積して意見をぶつけたい、または発表したいという考えが強くなったらオフライン参加にするだろうか。
次回のSRE NEXT2025のテーマが「Talk NEXT」ということでイベントでも会話を促す仕組みがあればオフライン参加するのも面白そう。
SREタイプ
オフラインでやっていたアンケートボードにあるSREタイプや発表内容から、SREタイプとしてEmbedded/Enabling/Platform とう分類は一般的になっていることが読み取れた。 特にEmbedded SREについては少数派でEnabling/Platformが大多数だと思い込んでいた。これはどこかでEmbedded SREの要員確保と各開発チームへの配置が困難なのでEnablingチームやPlatformチームとして配置する、という話をどこかで聞いた記憶があったから。
この認識は古くなっており、SREの認知も拡大している中でEmbedded SREというキャリアも一般的になってきたのかと感じた。あるいはSRE NEXTという母集団が偏っている可能性もあるが。 どちらにせよ、SREの中でもEmbedded SREという取り組み方に魅力を感じていたので、こういった取り組み方が普遍化していくことはナレッジの共有や自身のキャリア形成においても大きな選択肢になりうるので嬉しく思う。