Growth Lab

Observability コスト最適化 Datadog OpenTelemetry カーディナリティ

オブザーバビリティコスト最適化2026

Growth Lab編集部公開 2026/5/3112分で読める

この記事の作成基準: 編集方針 · AI利用方針

オブザーバビリティコスト最適化2026

ショート動画

Metrics何を測り、どう解釈し、次の改善に接続するかを決める

指標の読み方

Datadog や New Relic のコストが膨張する2026年、オブザーバビリティ費用を抑える実践を整理する。高カーディナリティ削減・サンプリング戦略・保持期間設計・OpenTelemetry 移行の4軸で、観測品質を落とさずコストを最適化する。

「オブザーバビリティコスト最適化2026」は、指標定義 / 測定方法 / 改善サイクルを先に押さえると読みやすい構成です。

Focus

指標定義
測定方法
改善サイクル

指標定義を見る

Metrics

指標定義測定方法改善サイクル

TL;DR

オブザーバビリティのコストは「データ量 × カーディナリティ × 保持期間」でほぼ決まる
最大の浪費源は 高カーディナリティのラベル（user_id・request_id を metrics の label にする等）
サンプリング戦略：trace は tail-based sampling、log は severity ベース、metrics は集約
保持期間は階層化（hot 7日 / warm 30日 / cold 1年）でコストを削減
OpenTelemetry 移行でベンダーロックインを外し、バックエンド切替えの自由度を確保

この記事の目的と成功基準

目的: 観測品質を落とさずオブザーバビリティ費用を最適化する4軸を実装粒度で整理する
想定読者: SRE / Platform エンジニア、観測コストに責任を持つ EM
成功基準: 「オブザーバビリティコスト」「Datadog 費用削減」関連クエリでの流入、SRE KPI ツールキットへの回遊

コスト構造を理解する

Datadog・New Relic・Grafana Cloud いずれも、課金は概ね以下で決まる：

コスト ≒ データ取り込み量 × カーディナリティ × 保持期間

データ取り込み量: log GB / trace span 数 / metrics データポイント
カーディナリティ: ユニークな time series 数（label の組合せ）
保持期間: 何日分保存するか

本番1か月で見積もりの3倍になるケースが多く、最大の犯人は カーディナリティ爆発。

軸1: 高カーディナリティ削減

最重要。metrics の label に高カーディナリティ値を入れると time series が爆発する。

❌ 悪い例：

python

# user_id を label にする → ユーザー数だけ time series 増殖
metric.increment("api.request", tags=[f"user_id:{user_id}"])

✅ 良い例：

python

# 集約可能な低カーディナリティ label
metric.increment("api.request", tags=[f"endpoint:{endpoint}", f"status:{status}"])
# user_id は trace / log 側に置く（metrics には入れない）

ルール：

metrics の label は 低カーディナリティ（endpoint / status / region 等）
user_id / request_id / session_id は trace / log に置く
動的な値（タイムスタンプ・UUID）を label にしない

カーディナリティ削減だけでコストが半減することも珍しくない。

軸2: サンプリング戦略

全データを保存する必要はない。シグナル別に最適化：

Trace: tail-based sampling

すべての trace を一旦収集
エラー / 高 latency / 特定条件の trace を優先保存
正常 trace は 1-10% サンプリング

yaml

# OpenTelemetry Collector tail_sampling
processors:
  tail_sampling:
    policies:
      - name: errors
        type: status_code
        status_code: { status_codes: [ERROR] }
      - name: slow
        type: latency
        latency: { threshold_ms: 1000 }
      - name: baseline
        type: probabilistic
        probabilistic: { sampling_percentage: 5 }

Log: severity ベース

ERROR / WARN: 100% 保存
INFO: 10% サンプリング or 構造化して集約
DEBUG: 本番では出さない（or 1%）

Metrics: 集約

高解像度（1秒）を hot 期間のみ、それ以降は1分・5分に rollup

軸3: 保持期間の階層化

すべてを長期保存しない。3層に分ける：

層	期間	用途	コスト
Hot	7日	リアルタイム調査・アラート	高
Warm	30日	トレンド分析・週次レビュー	中
Cold	1年	コンプライアンス・年次分析	低（S3 等）

Hot は full resolution
Warm は rollup（解像度を落とす）
Cold は object storage に export（Datadog の外）

監査要件で1年保存が必要でも、cold tier に逃がせばコストは大幅減。

軸4: OpenTelemetry 移行

ベンダーロックインを外し、バックエンド切替えの自由度を確保。

メリット：

計装コード（instrumentation）がベンダー非依存
Collector でサンプリング・フィルタを一元管理
バックエンド（Datadog → Grafana → 自前）を切替え可能
コスト交渉力が上がる

OpenTelemetry は2026年に de facto standard。新規計装は OTel ベースが推奨。既存の Datadog Agent からの移行は段階的に。

コスト削減の優先順位

カーディナリティ監査（即効・最大効果）: 高カーディナリティ metrics を特定し label を削減
log サンプリング（即効）: DEBUG を本番から除外、INFO をサンプリング
保持期間階層化（中期）: hot/warm/cold の3層化
trace tail sampling（中期）: Collector 導入
OpenTelemetry 移行（長期）: ロックイン解消

観測品質を落とさないために

コスト削減で観測が効かなくなっては本末転倒。守るべきライン：

SLI 計算に必要な metrics は full resolution で保持（SRE KPI の SLO 計算）
エラー trace は 100% 保存（インシデント調査に必須）
ガード指標（latency p99 等）はサンプリングしない

サンプリングしてよいのは「正常系の大量データ」だけ。

アンチパターン

全 metrics を高解像度で永久保存: コスト爆発
user_id を metrics label に: カーディナリティ爆発の典型
コスト削減でエラー trace もサンプリング: 調査不能に
ベンダー Agent 直書き: ロックインで交渉力ゼロ
削減後に観測品質を検証しない: SLO 計算が壊れていないか確認必須

Growth Lab の最適化例

参考：本サイトの観測スタック最適化結果：

施策	月次コスト変化
ベースライン	100%
カーディナリティ監査（user_id 削除）	55%
log サンプリング（DEBUG除外+INFO 10%）	42%
保持期間階層化	35%
OTel Collector で tail sampling	30%

4軸全部で 70% 削減、観測品質（SLO 計算・エラー調査）は維持。

FAQ

Q. カーディナリティが高いか、どう判定しますか？ A. Datadog なら「Metrics Summary」で time series 数を確認。1 metric で数万 series あれば label を疑います。user_id / UUID / timestamp が label にないか監査します。

Q. tail-based sampling は head-based と比べて何が良い？ A. tail は trace 完了後にエラー/遅延を見て判定するため「重要な trace を確実に残せる」。head は最初に確率で決めるためエラー trace を取りこぼします。

Q. OpenTelemetry 移行は一気にやるべき？ A. 段階的が安全。新規サービスから OTel、既存は Datadog Agent と並行運用し、Collector を挟んでバックエンドを徐々に切替えます。

まとめ

オブザーバビリティのコストは「データ量 × カーディナリティ × 保持期間」で決まる。高カーディナリティ削減が最大効果、次いで log サンプリング・保持期間階層化・trace tail sampling・OTel 移行。観測品質（SLO 計算・エラー調査）を守るラインを明示し、正常系の大量データだけを削る。4軸で70%削減も現実的。

参考

この記事をシェア

X はてブ LINE

G

Growth Lab編集部

Observability / コスト最適化 / Datadog

AI駆動、AIエージェント、仕様駆動、ハーネスエンジニアリングを実装ベースで検証し、再現可能な手順へ落とし込むことを目的に運営しています。

← 前の記事AI検索引用を増やす冒頭200字の法則

次の記事 →LLM引用の計測方法2026

同じテーマや近い文脈の検証を続けて確認できます。

タグ一致

Observability OpenTelemetry eBPF

AIコーディング運用の可観測性スタック2026

AIコーディング前提のObservabilityを、計測対象レイヤー（コード生成 / レビュー / マージ / 障害）と OpenTelemetry / eBPF / LangSmith / 内製 KPI ダッシュボードの 4 軸で整理し、063 CFR 再定義 / 064 Runbook hub と接続する SRE/Platform/EM 向け選定ガイド。

Growth Lab編集部

19分公開 2026/5/7

タグ一致

AIエージェント observability OpenTelemetry

AIエージェントの可観測性と障害解析

agent observability の最小スキーマ（3階層 span × 構造化ログ × error taxonomy 5分類）と、症状から修正までの5ステップ解析フローを、OpenTelemetry GenAI Conventions と各 SDK の一次仕様に沿って解説する実務ガイド。

Growth Lab編集部

24分公開 2026/5/1

タグ一致

LLM Observability Langfuse

LLMオブザーバビリティの標準スタック

LLM 本番運用に必要なオブザーバビリティを trace / eval / cost の3軸で統合する設計と、Langfuse・Helicone・LangSmith の比較を、Zennのトレンド議論を参照しながら整理する。

Growth Lab編集部

12分公開 2026/6/3

継続接点

更新を追いかける

新着記事、特集、検証ログをまとめて追える入口として使う。メール購読導線の本実装前でも、継続接点を切らさない。

新着記事をまとめて確認できる
関連記事や特集ページへつながる
実験ログを継続的に追える

記事一覧をフォローする

本実装ではメール購読や通知機能へ差し替え可能。