分類	説明	対処
一時的（transient）	ネットワーク瞬断・タイムアウト・一時的な過負荷	リトライ可能
永続的（persistent）	バグ・不正入力・リソース不足・権限エラー	リトライ不可

ユースケース	推奨上限	理由
同期 API 呼び出し（ユーザー待機中）	2〜3回	レイテンシへの影響が直接的
非同期バッチ処理	5〜10回	許容時間が長い
決済など副作用の大きい操作	1〜2回（idempotency 必須）	重複実行リスクが高い

指標	典型的な値	調整方針
エラー率閾値	50%（10リクエスト中5失敗）	重要度の低いサービスは高め
最小リクエスト数	10〜20件	低トラフィック時の誤動作を防ぐ
Open → Half-Open の待機	30秒〜5分	依存サービスの回復時間に合わせる

戦略	説明	適用例
キャッシュ返却	最後に成功した値を返す	レコメンド・設定値
デフォルト値	安全な固定値を返す	フィーチャーフラグ・表示設定
別エンドポイント	バックアップサービスに切り替え	マルチリージョン・CDN
機能の省略	非必須機能をスキップ	レコメンドブロック非表示
キューへの退避	非同期で後処理	メール送信・通知

このテーマの全体像

TL;DR

はじめに

エラーの分類

一時的エラー vs 永続的エラー

HTTP ステータスコードによる判断

ネットワークエラーの分類

retry 設計

exponential backoff

jitter の必要性

リトライ回数の上限設計

idempotency 設計

idempotency key の実装

DB の upsert による冪等性

circuit breaker パターン

状態遷移

実務での閾値設計

fallback 設計（graceful degradation）

fallback の選択肢

fallback の設計原則

設計チェックリスト

エラー分類

retry 設計

idempotency 設計

circuit breaker

fallback

FAQ

Q1: retry と circuit breaker はどちらを先に実装すべきですか？

Q2: idempotency key はどこで生成すべきですか？

Q3: fallback キャッシュはどのくらいの期間保持すべきですか？

まとめ

References

あわせて読む

DBマイグレーション事故パターン

データ不整合が起きる理由と対策設計

Toil率50%ルールの実践

更新を追いかける

このテーマの全体像

TL;DR

はじめに

エラーの分類

一時的エラー vs 永続的エラー

HTTP ステータスコードによる判断

ネットワークエラーの分類

retry 設計

exponential backoff

jitter の必要性

リトライ回数の上限設計

idempotency 設計

idempotency key の実装

DB の upsert による冪等性

circuit breaker パターン

状態遷移

実務での閾値設計

fallback 設計（graceful degradation）

fallback の選択肢

fallback の設計原則

設計チェックリスト

エラー分類

retry 設計

idempotency 設計

circuit breaker

fallback

FAQ

Q1: retry と circuit breaker はどちらを先に実装すべきですか？

Q2: idempotency key はどこで生成すべきですか？

Q3: fallback キャッシュはどのくらいの期間保持すべきですか？

まとめ

References

あわせて読む

DBマイグレーション事故パターン

データ不整合が起きる理由と対策設計

Toil率50%ルールの実践

更新を追いかける