あるふぁべっとがおおすぎる

ITネタとか勉強会とか色々

SRE Lounge #10 行ってきた | Advent Calendar 2019

IT系の勉強会行ってきた Advent Calendar 2019 - Adventar の16日目

恥ずかしながらSREconというのを初めて知った。
日本だと最近よく聞くようになったSREも、SREconは2014年から開催されてたのか…。
英語圏で生活してないことで、情報の時間差を感じることが多いIT業界。

 

SREcon19 Asia/Pacific Recap #1

  • 共通の文化とかマインドセットとかトレーニグの話が多くあった
  • マイクロサービス時代においてオーナーシップの移譲をどうやってるか
    最初は組織もシステムもモノリシック
    →問題が膨れ上がる前に組織もシステムも変える必要があった
    開発チームが大きなシステムを見てたが、それぞれの小さなチームがオーナーシップを持って進める
  • 今までは中央集権的にSREチームがインフラ見てた
    クラウド移行とTerraformをセット
    Teeraformの大きなリポジトリで各サービスごとにディレクトリが分かれてる
    SREチームは全体を見て各サービスごとに自由

 

SREcon19 Asia/Pacific Recap #2

  • SREcon 2014年からスタート、アメリカ、ユーロ、アジアパシフィック
  • リーダーシップなぜ必要?
    組織に貢献するなら組織をスケールしたり効果を最大化する
    人間はコピーを作るのは難しい
  • 分散データを扱うようなサービスは要件に合わせて何を重要視するのか決めていく必要がある
    レイテンシを優先したいがディザスタリカバリアベイラビリティ

 

Make It Visible 〜株式会社ビズリーチ HRMOS SREチームのObservability戦略〜

  • SREの日々の業務は見えない敵との戦い、エラーや新規構築で疲弊してしまう
  • SREチームミッションを策定
    日々の優先順はチームによって異なる。チームメンバーでの話し合い
    →プロダクトに十分な信頼性をもたせることでユーザ価値を高める
  • SLOの策定と可視化
    開発チームも含めてSLOを議論
  • トイルの定義と可視化、メンバーでトイルを定義
    経験や直感は人によって異なる。出来る人って一瞬、作業によってはトイル返却に1Qとかかかる

 

スペシャル企画】モニタリングパネルディスカッション

モニタリングパネルディスカッション - Google スライド

  • SREチームは5人以下が7割
  • 何見てる?
    通常のリソースが9割、外形7割、アプリエラー6割
  • Dynatrace, Datadog, Starkdriver, Makarel 等々
  • アラート通知→WARNはSlack
    Criticalはslack + PagerDuty
  • オンコールはストレスが増えるので誤発させないようテスト
  • リアクションが大切、それぞれが信頼されてる雰囲気。あいつが間違えちゃってもしょうがない。falsalertを憎んで人を憎まず
  • 監視ツール運用で疲弊しないものを選ぶ
  • SaaSはリテンション:どれくらい保存してくれるのか、リゾリューション:どれくらい詳細の解像度かを気にしてる

 

話を聞いてると各社それぞれが具体的な話が出てきてていい組織作ってるなーという印象。
ビズリーチさんの課題マップの策定のためにスコア設定してあれこれやってるのすげーって思いました。