#	問い	YES の意味
1	直近 4 週で深夜（22-06 時）page が 3 回以上発生したか	通知設計が破綻
2	当番明けの翌日に PTO を取得しづらい雰囲気があるか	体制が個人依存
3	エスカレが特定 1 名（古参 SRE 等）に集中しているか	知識の属人化
4	Runbook が 6 ヶ月以上更新されていないか、または不在か	都度ググりが常態化
5	直近の postmortem が個人の責任追及で終わったか	blame 文化で再発防止が形骸化

役割	責務	通知
Primary	Tier 1 page の即時応答	0 分
Secondary	Primary 未応答時のフォールバック	5-10 分
Manager / Lead	P0 のエスカレ	Primary 判断

Tier	内容	通知	期待応答
Tier 1	user impact のある symptom（SLO violation 等）	page	5 分以内
Tier 2	cause alert / 翌営業日対応で十分	チケット	翌営業日
Tier 3	観測値の傾向	Slack / dashboard	定常監視

判断	AI 担当	人間担当
重複 page の集約	◯	レビューのみ
Runbook の提示	◯	採用判断
Severity 判定	△（suggest）	最終決定
対外コミュニケーション	×	◯

実行前に確認すること

TL;DR

「夜中の呼び出しで頭が回らない」が常態化したチームへ

症状診断：5 つの問いで判定

根本原因：疲弊は「アラート過多」ではなく設計の欠落

原因 1: ノイジーアラート（cause を鳴らしている）

原因 2: ローテーションの偏り

原因 3: Runbook 不在で都度ググる

原因 4: blame 文化で再発防止が形骸化

段階的対策 1: ローテーション設計（最初に着手）

Primary / Secondary 2 段構成

on-call comp（手当）の選択肢

段階的対策 2: アラートチューニング

段階的対策 3: AI triage の段階導入

PagerDuty AIOps：重複 page の集約

Datadog Bits AI / Watchdog と auto-runbook

人間の最終判断を残す境界線

段階的対策 4: 体制設計とポストモーテム

blameless postmortem の定例化

Game day と SPACE Satisfaction で兆候を取る

アンチパターン 4 つ

1: 「とりあえずアラートを全部 page」

2: AI triage を最初に入れる

3: postmortem を「振り返り会」と呼んで形骸化

4: 当番手当を入れて満足する

まとめ

FAQ

Q1: オンコール手当の業界相場はどのくらいか？

Q2: Tier 1/2/3 に振り直すと page 数はどれくらい減るか？

Q3: PagerDuty AIOps と Datadog Bits AI、どちらを先に入れるべきか？

Q4: 少人数チーム（SRE 3-4 名）でも Follow-the-sun は組めるか？

Q5: 上層部が「責任の所在を明確にしろ」と要求する場合は？

References

あわせて読む

AIコーディング運用インシデントRunbookハブ

Toil率50%ルールの実践

SRE KPI ツールキット2026

更新を追いかける

実行前に確認すること

TL;DR

「夜中の呼び出しで頭が回らない」が常態化したチームへ

症状診断：5 つの問いで判定

根本原因：疲弊は「アラート過多」ではなく設計の欠落

原因 1: ノイジーアラート（cause を鳴らしている）

原因 2: ローテーションの偏り

原因 3: Runbook 不在で都度ググる

原因 4: blame 文化で再発防止が形骸化

段階的対策 1: ローテーション設計（最初に着手）

Primary / Secondary 2 段構成

on-call comp（手当）の選択肢

段階的対策 2: アラートチューニング

段階的対策 3: AI triage の段階導入

PagerDuty AIOps：重複 page の集約

Datadog Bits AI / Watchdog と auto-runbook

人間の最終判断を残す境界線

段階的対策 4: 体制設計とポストモーテム

blameless postmortem の定例化

Game day と SPACE Satisfaction で兆候を取る

アンチパターン 4 つ

1: 「とりあえずアラートを全部 page」

2: AI triage を最初に入れる

3: postmortem を「振り返り会」と呼んで形骸化

4: 当番手当を入れて満足する

まとめ

FAQ

Q1: オンコール手当の業界相場はどのくらいか？

Q2: Tier 1/2/3 に振り直すと page 数はどれくらい減るか？

Q3: PagerDuty AIOps と Datadog Bits AI、どちらを先に入れるべきか？

Q4: 少人数チーム（SRE 3-4 名）でも Follow-the-sun は組めるか？

Q5: 上層部が「責任の所在を明確にしろ」と要求する場合は？

References

あわせて読む

AIコーディング運用インシデントRunbookハブ

Toil率50%ルールの実践

SRE KPI ツールキット2026

更新を追いかける