【元記事】(https://joho-todai.com/ai-tokens-ninety-percent-garbage/)
3行まとめ
- Netflixのシニアエンジニアが、LLMに送られるトークンの最大90%が冗長な機械生成メタデータだと発見し、OSSのコンテキスト圧縮ツール「Project Headroom」を開発
- 可逆圧縮によりコスト削減と出力精度向上を両立し、公開5ヶ月で約1億1100万円・2000億トークンを削減
- 入力が長いほどモデル性能が低下する「context rot」現象も同時に解決できる
要約
背景・課題
- AIコーディングツールのトークン課金は使い込むほどコストが膨らみ、Uberでは2026年のAI予算を4ヶ月で使い切る事態に
- トークンの大半はJSONスキーマやAPIレスポンス等の機械生成メタデータであり、ユーザー入力の読み込みだけで全体の約76%を消費
アプローチ
- Headroomはローカルプロキシとして動作し、CacheAligner(差分検出)・型別ルーター・AST/JSON/DOMコンプレッサー・統計フィルターの多段圧縮を実行
- 圧縮箇所にマーカーを残し、LLMが必要時にMCPサーバー経由で原文を取得できる可逆設計(CCR)
成果・ポイント
- サーバーログ90%削減、MCPツール出力70%削減等の圧縮効率を達成
- コンテキストが短くなることでLLMの回答精度も向上する副次効果