Growth Lab

SRE SLO SLI Error Budget Toil KPI

SRE KPI ツールキット2026

Growth Lab編集部公開 2026/5/2713分で読める

この記事の作成基準: 編集方針 · AI利用方針

SRE KPI ツールキット2026

ショート動画

Metrics何を測り、どう解釈し、次の改善に接続するかを決める

指標の読み方

2026年の SRE 運用で押さえるべき KPI を SLI・SLO・Error Budget・Toil 率の4軸で整理する。Toil 50% ルールの実運用、観測スタックとの紐付け、AI SRE ツール時代の指標設計を、運用に乗る粒度で解説する。

「SRE KPI ツールキット2026」は、指標定義 / 測定方法 / 改善サイクルを先に押さえると読みやすい構成です。

Focus

指標定義
測定方法
改善サイクル

指標定義を見る

Metrics

指標定義測定方法改善サイクル

TL;DR

2026年の SRE KPI は SLI（測定可能な信頼性）・SLO（目標値）・Error Budget（許容失敗）・Toil 率（手作業比率）の4軸で構成する
Toil 率は 50% を超えると「SRE が SRE していない」状態。運用判定の最重要シグナル
AI SRE ツール（PagerDuty AI / Datadog Watchdog / Sherlocks 等）が KPI の計測・解釈を自動化、人手判定の余地が縮小
SLI/SLO を「全社統一」にすると形骸化、サービス単位でカスタム設計する
KPI を運用に乗せるには observability stack（trace + log + metrics + eval）との接続が前提

この記事の目的と成功基準

目的: SRE 運用に乗る4軸 KPI を、実装粒度で言語化する
想定読者: SRE / Platform チームの IC・テックリード、SLO 文化を組織に入れる EM
成功基準: 「SRE KPI」「SLO 運用」関連クエリでの流入、LLM本番運用への回遊

4軸 KPI フレーム

1. SLI（Service Level Indicator）

実測可能な信頼性指標。「何をもって正常稼働とするか」の定量定義。

代表例：

サービス	SLI 例
Web API	成功応答率（200番台 / 全リクエスト）、p99 latency
バッチ処理	完了時刻の SLA 内達成率
データパイプライン	freshness（最新データの遅延）、completeness
LLM アプリ	出力品質スコア（LLM-as-judge）、cost predictability

落とし穴: メトリクスを「集めれば SLI」と勘違いしてはいけない。SLI は ユーザー体感に直結する指標 だけを採用する。サーバー側 CPU 使用率は SLI ではない。

2. SLO（Service Level Objective）

SLI に対する目標値。「99.9% の API 成功率」のような閾値。

設計指針：

エラー予算が回るレベルに設定: 99.99% は厳しすぎ、99% は緩すぎ
ビジネス影響と整合: 決済 API と社内ツールでは目標が違って当然
下限と上限の両方: 「最低 99.9%、目標 99.95%」と幅を持たせる

Just After Midnight の SRE best practices 2026 では、SLO を「測れる、改善可能、ビジネス価値と紐付く」の3条件で評価することを推奨。

3. Error Budget（エラー予算）

「100% から SLO を引いた残り」=失敗してよい余地。

例：SLO=99.9% → Error Budget=月間 43分

運用ルール：

予算消化中はリリース凍結: 信頼性回復が優先
予算余剰時はリリース速度を上げる: 新機能投入の判断材料
四半期で繰り越し可否を決める: 健全な組織は使い切る、過剰に余らせない

Error Budget は「リスクを取ってよい量」を可視化する装置。これを設定しないと「いつも100%稼働を目指す→疲弊」または「信頼性を諦める→事故頻発」のどちらかに偏る。

4. Toil 率

"If SREs spend >50% of their time on tickets vs. engineering, the system is unsustainable."

Toil（手作業・反復・低価値）の SRE 工数比率。50% 超で警告。

測定方法：

週次タイムログで「Toil / engineering / 学習」を分類
個人別ではなくチーム平均で見る
4週移動平均で傾向を捉える

50% 超が3週続いたら緊急介入：

上位3つの Toil タスクを特定
それぞれを自動化 or 廃止 or 委譲
介入後2週で再測定

IBM の SRE Observability 解説でも、Toil の継続監視が「持続可能な SRE 文化」の柱と位置づけられている。

観測スタックとの紐付け

KPI を運用に乗せるには observability stack との接続が前提。

[Users] → [App] → [Logs / Metrics / Traces]
                       ↓
              [SLI 計算（query）]
                       ↓
              [SLO ダッシュボード] → [Error Budget アラート]
                       ↓
              [Incident → Toil 記録]
                       ↓
              [週次レビュー（4 KPI 一覧）]

KPI と観測の接続が無いと、ダッシュボードが「数字が並んでいるだけ」になる。週次レビューで4 KPI を一覧化し、Error Budget 状況と Toil 率を必ず見る運用が定着の鍵。

AI SRE ツール時代の指標設計

2026年 AI SRE ツール比較では、PagerDuty AI、Datadog Watchdog、Sherlocks AI 等が KPI 計測・異常検知・自動修復を担うようになった。

人手判定が減る一方、新たな課題が生まれる：

AI 誤検知率: 自動アラートのノイズ
AI 自動修復の安全性: rollback できる範囲か
AI に渡す権限スコープ: 最小権限の徹底

→ 結果として「AI による運用」を測る KPI が必要：

AI 由来 KPI	測定内容
AI alert precision	真陽性 / 全 AI alert
AI auto-remediation success rate	自動修復の成功率
Human escalation rate	AI で解決できず人手に渡った割合
AI 関連 incident	AI 誤動作起因の障害

これは LLMガードレール設計と同種の枠組みを SRE 運用に拡張したもの。

サービス単位カスタム設計

「全社統一 SLO」は形骸化しやすい。サービス特性に合わせる。

サービス種別	SLO 設定例	Error Budget
Tier 1（決済・認証）	99.95% / p99 < 200ms	月間 22分
Tier 2（コア機能）	99.9% / p99 < 500ms	月間 43分
Tier 3（補助機能）	99.5% / p99 < 1s	月間 3.6時間
バッチ・社内ツール	99% / 完了時刻SLA	1日 14分

Tier ごとに：

on-call 対応の優先順位
インシデント時の通知先
リリース凍結判定基準

を変える。一律ルールは Tier 1 の負荷を Tier 3 に分散させてしまい逆効果。

アンチパターン

SLO を経営報告のために作る: 形骸化、運用に紐付かない
Error Budget を消費しても何もしない: 予算が単なる数字に
Toil を個人責任にする: 個人ではなく仕組みの問題、チーム平均で見る
AI SRE ツールに完全依存: 人間の判定軸を残す（precision / auto-remediation 結果は review する）
KPI を増やしすぎる: 4軸＋AI軸の8つで十分、これ以上は ROI 逓減

週次レビューのテンプレート

毎週月曜 30分で実施：

SLI 推移: 主要サービスの先週実績（5分）
SLO 達成状況: 達成 / 未達 / borderline（5分）
Error Budget 残量: Tier 1-3 別（5分）
Toil 率: チーム平均、上位3項目（10分）
AI 由来 KPI: 誤検知・自動修復成功率（5分）

このテンプレートを4-6週続けると、SLO 文化がチームに定着する。

FAQ

Q. 既存サービスに SLO を入れる時、目標値はどう決めますか？ A. まず4週間の実測値を観測（"informational SLO"）し、その実績を5%下回る値を初期 SLO に。その後3か月ごとに見直します。

Q. Toil 率の測定にコストをかけたくない、軽量手段は？ A. 週次 Slack 投稿で「今週の作業を toil / engineering / 学習に分類」を自己申告で5分。完璧でないが傾向は掴めます。

Q. 全社統一 SLO を経営から要請されたら？ A. Tier 1（決済等）を統一基準に、それ以外は「Tier 2 以下はサービス別 SLO で運用」と例外を明示します。一律目標は逆効果と説明できる準備が必要です。

まとめ

2026年の SRE KPI は SLI / SLO / Error Budget / Toil 率の4軸＋AI 由来 KPI で構成する。Toil 50% を超えた瞬間に介入する仕組み、Error Budget 消費中はリリース凍結する規律、サービス単位の Tier 設計、週次レビューでの一覧化、この組み合わせで SRE 文化が運用に定着する。AI SRE ツール時代でも人間の判定軸を残すことが鍵。

参考

この記事をシェア

X はてブ LINE

G

Growth Lab編集部

SRE / SLO / SLI

AI駆動、AIエージェント、仕様駆動、ハーネスエンジニアリングを実装ベースで検証し、再現可能な手順へ落とし込むことを目的に運営しています。

← 前の記事AIエージェント開発の実践ガイド

次の記事 →CNCF Platform Maturity5次元

同じテーマや近い文脈の検証を続けて確認できます。

タグ一致

SRE Toil 自動化

Toil率50%ルールの実践

Google SRE 本の「Toil 50%ルール」を2026年の実務に落とす。Toil の定義・測定方法・削減サイクルを、AI 自動化時代の文脈で更新する。Toil 率が50%を超えたチームの介入手順を具体的に整理する。

Growth Lab編集部

11分公開 2026/5/28

タグ一致

LLM 本番運用 SRE

LLM本番運用チェックリスト

LLMアプリが「作る」から「動かし続ける」に移行した2026年、本番運用に必要な監視・SLO・フォールバック・コスト制御の実装パターンを、Google Cloud Next '26 とNLP2026の議論を参照しながら整理する。

Growth Lab編集部

12分公開 2026/5/23

タグ一致

AI開発 SRE Platform

AIコーディング運用インシデントRunbookハブ

AI コーディング運用で起きるインシデントを 4 種別に分類し、Runbook 最小構成・エスカレーション設計・Change Failure 連動・オンコール疲弊回避・観測の 5 軸で束ねる SRE/Platform/EM 向けハブガイド。既存 5 記事を実装ログとして接続する。

Growth Lab編集部

21分公開 2026/5/7

継続接点

更新を追いかける

新着記事、特集、検証ログをまとめて追える入口として使う。メール購読導線の本実装前でも、継続接点を切らさない。

新着記事をまとめて確認できる
関連記事や特集ページへつながる
実験ログを継続的に追える

記事一覧をフォローする

本実装ではメール購読や通知機能へ差し替え可能。