エピソード	Before（観測なし）	After（最小スキーマ導入後）
黙って止まったエージェント	4〜6 時間（ログを掘り、再実行で再現待ち）	10〜20 分（最後の tool call の error_code で即推定）
無限ループでコスト爆発	翌日のコスト請求まで気付かず	input_tokens 累積閾値アラートで 5 分以内に検知
tool call が時々失敗	"flaky" として黙殺	retry_count 属性で頻度を可視化、根本原因（外部 API レート制限）まで 1 日以内に特定

フィールド	型	備考
`trace_id` / `span_id`	string	OTel と紐付け
`prompt_summary`	string	全文ではなく要約 / 先頭 N 文字
`completion_summary`	string	同上
`tool_input` / `tool_output`	json	全文。ただし PII マスク済み
`latency_ms`	number	step / tool 単位
`cost_usd`	number	model 単価 × tokens
`error_code`	string?	error taxonomy 分類のキー
`model_id`	string	例: `gpt-4o` / `claude-sonnet-4-7`

分類	症状	観測信号	主な対応策
infra	API 接続エラー / タイムアウト / レート制限	`error_code` = `rate_limit` / `timeout` / `connection_error`、`latency_ms` の極端な増加	retry with exponential backoff、レート制限の事前計算
model	invalid_request / model_not_found / 出力パース失敗	`error_code` = `invalid_request_error` / `output_parser_error`、`stop_reason` 異常	プロンプト改修、スキーマ強制（structured output）
tool	tool 関数内例外 / 外部 API の 4xx・5xx	`tool_output_status` = `error`、`error_code` 多様	tool 実装の入力バリデーション強化、エラー時の LLM 再試行プロンプト
planning	無限ループ / max_iterations 超過 / 同じ tool を繰り返す	`retry_count` の増加、`step_index` 上限到達、`stop_reason` = `max_tokens` 連続	step 上限の明示、ループ検出ガード、プロンプトの目標明確化
safety	content_policy_violation / refusal / prompt injection 疑い	`error_code` = `content_policy_violation`、unusual `tool_use` 系列	ガードレール（入出力フィルタ）、プロンプトインジェクション対策

種別	項目	閾値の例
ダッシュボード	run 成功率	95% 未満で要注意
ダッシュボード	平均レイテンシ（run / step / tool 別）	前週比 +50% 以上で要注意
ダッシュボード	トークンコスト（日次 / model 別）	予算上限の 80% で警戒
ダッシュボード	5 分類別エラー件数	急増した分類を最優先で調査
アラート	成功率閾値割れ	過去 1h で 90% 未満 → 即通知
アラート	コスト急増	1h あたり累積 input_tokens が予算の 200% 超え
アラート	無限ループ検知	`retry_count` >= 5 が同一 run 内で発生

軸	選択肢が傾く方向
規模	小規模・PoC → LangFuse / Phoenix（OSS）。中〜大規模・SLA 必要 → LangSmith / Datadog APM 統合
既存基盤	既に OTel collector を運用中 → 自前 + LangFuse / Phoenix。観測基盤未整備 → LangSmith のフルマネージド
評価連携	LLM eval を回したい → LangSmith / LangFuse（dataset / eval 統合）
コスト	月数千 run → OSS 自ホスト十分。月十万 run〜 → SaaS の従量課金を試算

症状と原因を切り分ける

TL;DR

はじめに

なぜ AIエージェントは黙って止まるのか ― 観測の最小要件

最小スキーマ ― 3階層 span × 構造化ログ × error taxonomy

3 階層 span 設計

構造化ログのスキーマ

残してはいけないもの ― PII / 機密の扱い

error taxonomy ― 失敗を5分類で扱い、信号と対応策を結ぶ

障害解析フロー ― 症状から修正まで5ステップ

1. 症状特定

2. 信号収集

3. 仮説立て

4. 再現

5. 修正と再発防止

実例ウォークスルー ― 黙って止まったエージェント

運用に組み込む ― ダッシュボード、アラート、ツール選定軸

必須ダッシュボードと必須アラート

ツール選び分け軸（比較ではなく判断軸）

ログ保存期間と最小アクセス権

次のアクション

FAQ

References

あわせて読む

agent loop durable workflow実装

オブザーバビリティ コスト最適化2026

AIコーディング運用の可観測性スタック2026

更新を追いかける

症状と原因を切り分ける

TL;DR

はじめに

なぜ AIエージェントは黙って止まるのか ― 観測の最小要件

最小スキーマ ― 3階層 span × 構造化ログ × error taxonomy

3 階層 span 設計

構造化ログのスキーマ

残してはいけないもの ― PII / 機密の扱い

error taxonomy ― 失敗を5分類で扱い、信号と対応策を結ぶ

障害解析フロー ― 症状から修正まで5ステップ

1. 症状特定

2. 信号収集

3. 仮説立て

4. 再現

5. 修正と再発防止

実例ウォークスルー ― 黙って止まったエージェント

運用に組み込む ― ダッシュボード、アラート、ツール選定軸

必須ダッシュボードと必須アラート

ツール選び分け軸（比較ではなく判断軸）

ログ保存期間と最小アクセス権

次のアクション

FAQ

References

あわせて読む

agent loop durable workflow実装

オブザーバビリティ コスト最適化2026

AIコーディング運用の可観測性スタック2026

更新を追いかける

オブザーバビリティコスト最適化2026

オブザーバビリティコスト最適化2026