Token予算戦争:企業AIが「計算の時代」に突入
- 核心的見解:企業AIは「採用するかどうか」から「どう計算するか」へと移行しており、中心的な課題はトークンコストとビジネス上の価値を直接結びつけることが難しい点です。次の段階の鍵はモデルの能力ではなく、トークン消費を具体的なビジネス成果に正確に帰属させ、AIリソースの配分を決定できるかどうかにあります。
- 重要な要素:
- AI推論コストは実験予算から継続的な運営支出へと変化しており、CEOやCFOは1米ドルあたりのトークンがもたらす実際の価値を定量化することを求めています。
- トークン消費=価値ではありません。同じワークフローでも、プロンプト、コンテキスト長、モデル選択、再試行回数などの要因により、コストに最大5〜10倍の差が生じる可能性があります。
- 限界トークン効用は中核的な指標であり、推論コストを1米ドル追加で費やすごとに生み出されるビジネス価値を指しますが、現在ほとんどの企業がこれを追跡できていません。
- AI予算の申請は本質的に人件費と競合します。外部委託(BPO)の代替は、社内従業員の代替よりも定量化の基準を確立しやすいものです。
- 再試行のロングテール、コンテキストの肥大化、不適切なルーティングは、トークンコストを制御不能にする3大原因であり、経済性の計算を著しく変える可能性があります。
- トークンから結果への帰属が欠如しているため、企業はエージェントの意思決定の軌跡を捉え、特定のワークフローが「なぜ」成功または失敗したのかを説明できる必要があります。
- 帰属能力を掌握した企業は、リソース配分の意思決定(例:ワークフロー最適化、モデル切り替え)を行い、最終的に企業内のAIリソースの流れを制御できるようになります。
元のタイトル:Token Budget Wars
原文著者:Jaya Gupta
原文翻訳:Peggy
編集者注:企業のAIは「採用するかどうか」から、「どう会計処理するか」の段階に入っている。
過去2年間、多くの企業が従業員にAIの使用を推進してきたが、それは主に技術トレンドや競争圧力に追いつくためだった。しかし、AIの推論コストが実験予算から継続的な運営支出へと変わりつつある今、CEOやCFOはより現実的な問いを突きつけられている:AIは一体どれだけの価値を生み出したのか?1ドルのトークンコストで、どんな実際の結果が得られたのか?
これこそが「Token Budget Wars」の核心である。いわゆるトークン予算戦争とは、単に企業がAIの請求額を抑えようとすることではない。どのビジネスにより多くの計算リソースを投入すべきか、どのタスクをより安価なモデルに切り替えるべきか、どのプロセスを外注や人的労働で代替できるか、あるいは何が単なる無駄な消費なのかを、再評価することを意味する。
この記事で最も注目すべき点は、AIの使用量が価値に等しいとは限らないということだ。SaaSの時代、使用量は通常、ソフトウェアが採用されたことを意味した。しかし、AIの時代において、トークンの消費が示すのは「メーターが回っている」ことだけだ。同じワークフローでも、プロンプト、コンテキスト、モデルの選択、リトライ回数によって、数倍ものコスト差が生じる可能性がある。請求額が高くなるのは、AIが実際に機能しているからかもしれないし、システムが無駄な動きをしているからかもしれない。
したがって、企業AIの次の段階において重要なのは、モデルの能力だけでなく、トークンコストとビジネス成果を対応付けることができるかどうかである。第一段階ではAIが仕事を完了できることが証明された。第二段階で答えなければならないのは、これらの仕事に費用を支払う価値が本当にあるのかどうかである。
以下が原文である:
企業のAIは「採用するかどうか」から「どう配分するか」へと移行している。
企業の上層部において、新たな「通貨」とは、AIへの投資収益率を数値化する能力である。あらゆる機能部門が同じ質問を突きつけられている:何を生み出したのか?そのコストはいくらか?過去2年間、CEOたちは朝にCNBCのジム・クレイマー(#弱気)を見ながら、競合他社が生産性の向上を発表するのを横目に、自社の従業員全員にAIを使うよう求めてきた。しかし今、真のプレッシャーをもたらしているのは、その後の質問である:その価値を証明してみせよ。
Claudeは2025年11月にリリースされたが、当時、ほとんどの企業の2026年度予算はすでに確定していた。第1四半期に入ると、企業の実際の使用量は当初の計画を大幅に上回った。推論コストはもはや実験のための予算項目ではなく、継続的に発生する運営コストへと変わった。それに伴い、新たな問題が浮上した:AIは実際にどこで真の価値を生み出しているのか?
この質問に答えるのは難しい。なぜなら、トークンの効用が数値化されていないからだ。請求書を見ても、その支出が人件費の代替、収益の創出、リスクの低減、プロセスの迅速化につながったのか、それとも単にエンジニアの一群がランキングのためにトークンを乱発した(#メタメイツ)だけなのかはわからない。支出が数十万ドル程度であれば、それはまだ実験のように見える。しかし、ある臨界点、例えば7桁に達すると、それはインフラストラクチャとなる。技術的な差異が損益計算書に実質的な影響を与え始める:同じワークフロー、同じ入力であっても、2回の実行でトークンコストが5倍から10倍も異なることがあり、表面上は何の問題もないように見える。実験規模では、この変動はすでに高くつく。しかし、いったんインフラストラクチャ規模になると、それはCFOがCEOに説明しなければならない数字となる。
これを「限界トークン効用」と呼ぶことができる:1ドルの推論コストを追加で費やすことで生み出されるビジネス価値である。これは規模拡大の段階で本当に重要な数字であり、ほとんどの企業が現在見えていない数字でもある。
取締役会における問いは、「AIは役に立つか」から、「AIは実際にどこでレバレッジを効かせているのか」へと移行しつつある。そして、まさにそのため、いわゆるトークン予算をめぐる争いは、本質的にトークンの配分権をめぐる争いなのである。
トークンの所有権をめぐる争いが急速に加熱しているのは、それが30年続いた経営幹部の本能と衝突しているからである:大きなチームは大きな地位、大きな責任範囲、そしてより大きな権力を意味する。かつて、上級管理職の成功を測る目に見える指標は、彼らが管理するチームの規模、すなわち直属の部下、間接的な部下、そして組織図上の人数だった。
しかし、知能が希少なリソースとなった今、新たな指標はこうなる:どれだけの知能を動員できるか。
AI支出は本質的に人件費と競合している。
ほとんどのAI予算申請は、本質的に3つの主張のいずれかである:外注労働力の代替、社内労働力の代替、または新たな収入の創出。
従業員には給与がある。BPO(ビジネス・プロセス・アウトソーシング)契約には、チケット、保険金請求、請求書、審査ごとの単価が設定されている。人間はこれらの単位を理解できる。しかし、推論コストはより複雑である。なぜなら、タスクが最終的に完了するまでのコストは、システムが実行中にどのように動作するかに依存するからだ。3回のリトライ、手動修正、そして最先端モデルの呼び出しを必要とする保険金請求タスクは、それが代替しようとしていた外注の人件費よりも高くつく可能性がある。だからこそ、議論は次のように移行している:ある結果を達成するためのコストはいくらか?例えば、解決済みチケット1件あたり、処理済み保険金請求1件あたり、審査済み契約1件あたり、完了済み請求書1件あたり、新規採用を回避できたポジション1つあたり、維持できた顧客1人あたり、あるいは1ドルの収益転換あたりのコストである。
経営幹部は、BPOが最もベンチマークを設定しやすいことに気づいている。なぜなら、これらの仕事はもともと「完了単位」で価格設定されているからだ。それに比べて、社内従業員とAIを比較するのははるかに難しい。従業員は昼休みにTikTokを見ることも含め、日々多くのことを行うからだ。生産性の向上は、多くの場合、採用の回避や分散した能力の解放として現れる。また、管理者は部分的な自動化だけを理由にチームを削減することに抵抗を示す。BPOは、ビジネスチームに定量化可能なベースラインを提供する。
これはSaaSの論理とは異なる。SaaSはかつて、企業に対して使用量を価値の代理指標と見なすことを教えた。
しかし、AIはこれを打ち破った。同じワークフローが消費する推論リソースは、プロンプト、検索されたコンテキスト、選択されたモデル、呼び出されたツール、リトライ回数、そしてエージェントがスタックするかどうかによって大きく異なる可能性がある。請求書の単位であるトークンは安定しているが、それが表す作業量は安定していない。
より正確に言えば、シグナルとノイズは同じ計測単位を使用している。トークンの請求額が増加するのは、実際の作業が完了していることを意味するかもしれない。しかし、それは計算リソースが悪質なプロンプト、無関係なコンテキスト、不必要なツール呼び出し、重複した推論、そして過剰性能なモデルに浪費されていることを意味するかもしれない。2つの企業のトークン請求額が全く同じでも、その背後で実行されているビジネスは全く異なる可能性がある:一方は推論を結果に変換しているのに対し、もう一方は無駄な努力に対して代金を支払っており、これらは請求明細上ではまったく同じように見える。
SaaSの使用量は、ソフトウェアが採用されたことを示す。AIの使用量が示すのは、メーターが動いていることだけだ。それは、会社が実際に機能しているかどうかを教えてはくれない。
なぜ限界トークン効用が見えにくいのか?
主な理由は3つある。
第一に、リトライのロングテールである。エージェントがワークフローを初回で正しく完了する確率がpである場合、解決済みワークフローあたりの期待トークン消費量は、およそT/pで増加する。ここでTは基本コストである。完了率が90%から70%に低下すると、問題解決あたりの実効コストは約28%上昇する。これは20%ではない。なぜなら、失敗は複合的な効果を生むからだ。企業のワークフローでは、入力はしばしば乱雑であり、例外ケースも重要である。失敗は正確性を低下させるだけでなく、経済性を変えてしまう。
第二に、コンテキストの膨張である。アテンション・メカニズムに大きく依存する処理では、推論コストはコンテキスト長に対しておおよそO(n²)で増加する。したがって、コンテキスト長が2倍になると、推論コストはおよそ4倍になる。誰もがモデルに十分な情報を与えたいと考えるため、システムは過剰に供給する傾向がある:本来5つのドキュメントで十分なところを、検索が50を取得する。コネクタはメールスレッド全体をそのまま投入する。エージェントは、とっくに時代遅れになった会話履歴を引きずりながら動作し続ける。
第三に、ルーティングである。チームがどのモデルで「十分良い」結果が得られるかわからない場合、デフォルトで最も強力なモデルを使用することになる。基本的な分類タスクが、複雑な推論のために設計された同じモデルで実行される可能性がある。呼び出し回数が数百万回に達すると、単純なタスクを小さなモデルに振り分けるか、すべてのタスクを最先端モデルに任せるかの違いは、往々にして、管理可能な請求額と取締役会レベルの問題との違いを意味する。
非ソフトウェア業界は、この問題を「変革」という形で経験することになる。ソフトウェア企業が最初にこの問題に気づくのは、最適化される作業がすでに十分に計測化されているからである。エンジニアリングチームには、PR、コミット、デプロイ、インシデント、サイクルタイム、平均修復時間などの指標があり、これらは製品と結びついている。完璧ではないが、この種の作業は測定が容易である。
非ソフトウェア企業は、この問題をより深刻に感じることになる。なぜなら、彼らの仕事は運用的だからである。例えば、保険金請求、引受、カスタマーサービスのチケット、コンプライアンス審査、サプライチェーンの異常、支払い紛争などだ。あるいは、現実世界の資産を持つ企業も同様の問題に直面する。これらのワークフローは従来、工数、サイクルタイム、SLA達成率、エラー率で測定されてきており、多くの場合、平均的に正しいだけでなく、監査に耐えうるものであることが求められる。仕事の単位とコストの単位は、同じ言語を話さず、同じ組織にも存在しない。技術チームはトークン消費を把握でき、ビジネス部門はワークフローの変化を把握できるが、両者を結びつけるには、複数のチームが「何を測定しているのか」についてまず合意する必要がある。
私の考えでは、ソフトウェア企業はトークン予算戦争を生産性測定の問題として経験するだろう。これはこれまでに発生した多くの「AIによる解雇」に対応する。一方、非ソフトウェア企業はそれを変革の問題として経験するだろう。
欠けている層は、トークンから結果への帰属である。企業には、推論支出を、完了した作業と生み出されたビジネス成果に結び付ける変換層が必要である。この層は3つの質問に答えなければならない:このワークフローの真のコストはいくらか(リトライと修正を含む)?エージェントの実行軌跡のうち、どの部分が本当に重要で、どの部分が単なる無駄な努力か?この作業は運営モデルを変えたか(例えば、担当者あたりの処理チケット数が減少、保険金請求サイクルの短縮、BPO予算の縮小、採用の延期など)?次の層は、ビジネス言語で結果の帰属を行うことである。「このワークフローのコストは2.13ドルでした」と単純に言うのではなく、次のように言う:この種の保険金請求はエージェントが処理した方がBPOより安いが、保険契約が追加の例外的な書類を要求する場合、リトライのロングテールが経済性を破壊する。
測定は記憶へと変わる。トークンを結果に結び付けるために、企業はその間に起こったすべてを捉えなければならない:エージェントが何を見たか、何を検索したか、どのツールを呼び出したか、何を無視したか、どこでリトライしたか、いつ人間が介入したか、どの例外ルールが適用されたか、どの先例が有効だったか、そしてなぜあるパスが成功し、別のパスが失敗したのか。測定層は意思決定の軌跡を記録しなければならない。これはまさに、企業がこれまでほとんど所有したことのないものである。記録システムは何が起こったかを捉えることはできるが、なぜ起こったかを捉えることはほとんどない。例えば、CRMは取引が延期されたことを教えてくれるが、売上予測の背後にある、文章化されなかった判断については教えてくれない。
意思決定の理由は、企業内で最も腐敗しやすく、最も消えやすい資産の一つである。なぜなら、それはSlackのスレッド、メールのチェーン、エスカレーションミーティング、そして人の頭の中に存在するからだ。しかし問題は、人が去り、プロセスが変わることである。
AIはこれを変える。なぜなら、エージェントは軌跡を生成するからだ。すべての検索、ツール呼び出し、リトライ、エスカレーション、手動修正、そして最終的な意思決定は、コンテキストから行動、そして結果へのパスの一部となる。当初、企業はこれらの軌跡を、支出の正当性を証明するために捉えるだろう。しかし、ひとたびこれらの軌跡が捉えられると、それらはコスト報告書そのものよりも価値を持つようになる。なぜなら、それらは組織が実際にどのように意思決定を行っているかについての永続的な記録となるからだ。(咳、コンテキストグラフ、最近この言葉を本当に聞き飽きているけれど。)
配分層こそが真の賞品である。もし推論がカスタマーオペレーションモデルにおける従量課金リソースとなるなら、1ドルごとに、それを使う価値があることを証明しなければならない。どのベンダーが、トークンがいつ結果に変換され、いつ変換されなかったか、そしてその理由を説明できるだろうか?
企業はこれをすべて自分たちだけで解明することはないだろう。彼らはそれを変革として購入するだろう。フォーチュン


