種別	症状例	一次対応の優先度
AI 暴走	エージェントが想定外のファイル削除 / 大量コミット / 認証情報の露出	高（即時 kill switch）
AI 起因の本番障害	AI 生成コードが production deploy 後に rollback、SLO 違反	高（rollback + CFR 計測）
観測欠落	エージェントが黙って止まり気付きが遅い、ログが取れていない	中（観測基盤強化）
オンコール疲弊	アラート量増加、ローテ崩壊、レビュー待ち滞留	中（運用設計見直し）

症状と原因を切り分ける

TL;DR

はじめに

1. AI コーディング運用で起きるインシデント分類

4 種別を混ぜない

2. Runbook の最小構成（ai-agent-runbook-design 軸）

AWS Well-Architected との整合

3. エスカレーション設計（ai-escalation-policy-design 軸）

エスカレーション 3 段階

閾値の例

4. Change Failure と Incident の連動（ai-change-failure-analysis 軸）

連動の 3 ステップ

5. オンコール疲弊を増やさない設計（oncall-fatigue-reduction 軸）

3 つの設計原則

6. 観測の設計（agent-observability 軸）

観測の最小要件

7. チェックリスト：AI コーディング運用 Runbook の整備状況

8. 整備順序（30-60-90 日）

Day 1-30: 分類 + 最小 Runbook

Day 31-60: エスカレーション + 観測

Day 61-90: CFR 連動 + AI triage

FAQ

Q1. Runbook を 4 種別に分ける必要がありますか？

Q2. 既存の SRE Runbook と AI コーディング Runbook は統合すべきですか？

Q3. AI triage（PagerDuty AIOps / Bits AI 等）はいつ導入すべきですか？

Q4. blameless postmortem は AI 起因にも適用できますか？

Q5. CFR と本ハブの関係は？

References

関連記事

実装サンプル：Runbook YAML テンプレート

あわせて読む

オンコール疲弊を防ぐ運用設計の手順

AIコーディング運用の可観測性スタック2026

AI駆動開発チームのオンボーディング設計

更新を追いかける

症状と原因を切り分ける

TL;DR

はじめに

1. AI コーディング運用で起きるインシデント分類

4 種別を混ぜない

2. Runbook の最小構成（ai-agent-runbook-design 軸）

AWS Well-Architected との整合

3. エスカレーション設計（ai-escalation-policy-design 軸）

エスカレーション 3 段階

閾値の例

4. Change Failure と Incident の連動（ai-change-failure-analysis 軸）

連動の 3 ステップ

5. オンコール疲弊を増やさない設計（oncall-fatigue-reduction 軸）

3 つの設計原則

6. 観測の設計（agent-observability 軸）

観測の最小要件

7. チェックリスト：AI コーディング運用 Runbook の整備状況

8. 整備順序（30-60-90 日）

Day 1-30: 分類 + 最小 Runbook

Day 31-60: エスカレーション + 観測

Day 61-90: CFR 連動 + AI triage

FAQ

Q1. Runbook を 4 種別に分ける必要がありますか？

Q2. 既存の SRE Runbook と AI コーディング Runbook は統合すべきですか？

Q3. AI triage（PagerDuty AIOps / Bits AI 等）はいつ導入すべきですか？

Q4. blameless postmortem は AI 起因にも適用できますか？

Q5. CFR と本ハブの関係は？

References

関連記事

実装サンプル：Runbook YAML テンプレート

あわせて読む

オンコール疲弊を防ぐ運用設計の手順

AIコーディング運用の可観測性スタック2026

AI駆動開発チームのオンボーディング設計

更新を追いかける