The cheaper AI gets, the more expensive chips become

Odaily资深作者

2026-07-01 10:00

この記事は約4526文字で、全文を読むには約7分かかります

In the past narrative around AI, there was a line of thought: improved inference efficiency would kill the demand for chips. However, the reality is that the cheaper AI becomes, the more valuable physical computing power gets—every dollar that model makers spend on price wars ultimately flows into the pockets of chip and wafer manufacturers.

AI要約

展開

Core Point: The continuous and significant decline in AI model inference costs (about a 1,000-fold reduction over three years) has not led to a decrease in demand for computing power. On the contrary, it has caused an exponential surge in token consumption (doubling every two months) due to the explosion of application scenarios and deeper usage. Total expenditure has instead exploded, ultimately intensifying the supply-demand tension and price increases for physical infrastructure like computing power and storage.
Key Elements:
1. The pricing of Claude Sonnet 5 is only 40%-60% of the flagship Opus 4.8, yet its performance reaches over 90%, reflecting the continuous improvement in AI model cost-efficiency.
2. After model price reductions, total enterprise AI spending has grown counter-intuitively: global enterprise spending on generative AI was $11.5 billion in 2024, and surged to $37 billion in 2025, a year-over-year increase of 320%.
3. The demand for computing power has transmitted to the hardware market. The spot prices of DRAM and NAND Flash have cumulatively risen over 300% since the third quarter of 2025, with the price of memory chips increasing six-fold within a year.
4. Goldman Sachs predicts global cumulative capital expenditure on AI infrastructure will be approximately $7.6 trillion from 2026 to 2031. Based on a benchmark GPU price of $80,500, NVIDIA accounts for 75% of total computing power spending.
5. The combination of wider application distribution, deeper usage of single applications, and increasing model complexity drove daily token consumption from hundreds of interactions in 2023 to tens of thousands in 2025, with each interaction triggering multiple subsequent inferences.
6. Jevons' Paradox is repeating itself in the AI field: Watt's improvement of the steam engine reduced coal consumption but increased total coal use. Similarly, improvements in AI inference efficiency stimulate even greater demand for computing power.

原文出典：Wall Street CN

6月30日、AnthropicはClaude Sonnet 5を発表しました。

これはミッドレンジモデルで、Sonnetシリーズの中でも「最も実用的」なものです。エージェント性能テストSWE-bench Proでは63.2点を記録し、フラッグシップのOpus 4.8の69.2点にわずか6点差まで迫りました。また、大学院レベルの推論テストGPQA-AAA v2では、Sonnet 5がOpus 4.8を上回る結果を示しました。

価格設定がより重要です。キャンペーン期間中、入力100万トークンあたり2ドル、出力10ドルです。Opus 4.8の対応価格は5ドルと25ドルであり、Sonnet 5は4～6割の価格で、フラッグシップの9割以上の性能を発揮します。

このニュースには2つの読み方があります。

1つ目：AIがさらに安くなった。コスト低下は全ての人に利益をもたらし、Chatbot戦争は続き、モデル企業は競争に明け暮れる。

2つ目――そして市場が現在価格に織り込んでいるのは――モデルが安くなればなるほど、計算リソースとストレージは逆に高くなるということです。

Claude Sonnet 5発表当日、米国半導体株指数は約4%上昇しました。過去3年のAIストーリーには明確な筋書きがありました。推論効率の向上がチップ需要を減少させるというものです。しかし、この判断はあらゆるデータポイントで誤りであることが証明されています。

価格低下：3年で1000分の1に

まず、価格低下の流れを見てみましょう。

2022年、GPT-4レベルのAPI呼び出しコストは約1,000トークンあたり0.03ドルでした。2025年には、同等性能レベルのモデル価格は、スタンフォードAI Index Reportによると約280分の1に低下しました。オープンソースや効率向上の複合効果も加わり、業界全体で認められている低下幅は1000分の1です。

価格が下がったのは1つのモデルだけではなく、あらゆる企業が価格を下げています。

Anthropicの今回のSonnet 5は、Opus 4.8の性能密度に対応し、価格は4～6割に設定されています。GoogleのGemini Omni Flashは動画生成が毎秒0.10ドル、Nano Banana 2 Lite画像モデルは4秒で画像を生成し、1,000枚あたりわずか0.034ドルで、これは前世代の半額です。DeepSeek-V4-Proは、100万トークンの入力を0.035ドルという水準にまで引き下げました。

価格低下は価格表だけにとどまりません。

6月24日、The InformationはOpenAIが内部で純粋なソフトウェア最適化技術を発見したと報じました。ある演算工程におけるGPU需要が半分以上削減され、専用GPUプールは数千台から数百台に急減しました。同月、MetaはVistaraソリューションを提案しました。退役サーバーから取り外したDDR4メモリを自社開発のCXLチップを介して再接続し、DDR5と3:1の比率で組み合わせることで、推論サーバーのコストを25%削減します。

そして6月30日、Stepfunは投機的復号化技術JetSpecをオープンソース化しました。これにより、大規模言語モデルの推論速度が約10倍向上します。換算すると、同じトークン出力量に対して、必要なGPUの数は一桁減少する可能性があります。

もしAIが伝統的なコスト・需要関数に従うのであれば、これらのシグナルは一つのことを示唆するはずです。将来必要とされるチップの数は減少する、と。

ウォール街はそう恐れていました。

1月にDeepSeekがR1を発表した週末、AIインフラ株は近年で最も急激な売りに直面しました。AIクラウド企業Nebiusの株価は40%暴落しました。ストーリーは単純です。中国のオープンソースモデルが0.1ドルでトークンを販売する一方、米国企業は2ドルを請求しており、計算需要は必ず収縮するというものです。

爆発：総支出が逆に320%増加

しかし、実際に起こったことは全く逆でした。

Nebiusの共同創業者Roman Cherninは後に回想しています。DeepSeekがパニックを引き起こしたその週は、「おそらく当社にとって最も売上が好調だった週」だったと。企業の調達部門はコスト急落を見た後の最初の反応として、予算を削減するのではなく、ついに大規模に推論を実行できるようになったと捉えました。

2024年、全世界の企業による生成AIへの総支出は約115億ドルでした。2025年には、この数字は370億ドルに急増し、1年で320%増加しました。Menlo Venturesの企業調査によると、2025年における中央値の企業は「数十個」のAIアプリケーションを実行しており、2023年の1～2個から増加しています。

あらゆる次元のデータが同じ曲線上にあります。

Uberは2026年4月の時点で、すでに年間のAI予算を使い果たしていました。AT&Tは現在、1日あたり270億トークンを処理しており、18カ月前の8億トークンから増加しています。ある米国の大手医療保険会社では、月間トークン消費量が300万から1億5000万以上に急増しました。

分解してみると、成長は3つの方向性の重なりによるものです。

第一に、アプリケーションの普及です。各企業のマーケティング部門が3つのAIツール、営業部門が4つ、カスタマーサポート部門が2つ、さらに法務、人事、財務部門を加えると、2つから数十個へと、桁違いの飛躍です。

第二に、単一アプリケーションの深度です。カスタマーサポートAIを例にとると、2023年は1日あたり約500回のインタラクション、各インタラクションは約800トークンで、対話が終了すれば完了でした。2025年には、1日あたり15,000回のインタラクション、各インタラクションは約4,500トークンとなり、さらに各インタラクションごとに3～5回の後続推論（感情分析、エスカレーション予測、品質評価）がトリガーされ、すべてが同じエントリーポイントに集約されています。

第三に、モデル自体の複雑性の向上です。70億パラメータの単一ターンモデルから、700億パラメータ以上のマルチステップ推論エージェントへと進化し、各ターンの内部推論に消費されるトークンは、線形インタラクションの数十倍から数百倍に達します。

言い換えれば、トークンコストは1000分の1に低下し、市場で消費されるトークン数は数万倍に増加しました。その掛け算の正味の効果はただ一つの方向、すなわち支出の爆発です。

トークン消費量は2カ月ごとに倍増しており、複数の独立した手がかりが同じ数字を示しています。この指数曲線を2027年まで描くと、企業のAI年間支出が1000億ドルを超えるのは予測の問題ではなく、算術の問題です。

波及：ストレージは6倍に、チップインフラは7.6兆ドルへ

価格低下によって刺激された需要は、ソフトウェア層にとどまりませんでした。

メモリ価格の上昇は、AI需要がモデル層からハードウェア層へ波及していることを示す最も直接的なシグナルです。

2025年第3四半期以降、DRAMとNANDフラッシュのスポット価格は累積で300%以上上昇しました。DDR5モジュールは月間で90%を超える上昇率を記録した時期もあります。2026年に入っても、値上げは止まるどころか加速しています。

第1四半期のDRAM契約価格上昇率は、予想の55～60%から90～95%に上方修正されました。NANDは33～38%から55～60%に上方修正されました。第2四半期について、TrendForceはDRAMがさらに58～63%、NANDがさらに70～75%上昇すると予測しています。

消費者向け製品を基準とすると、Acer Predator 32G DDR5 6000キットは、2025年10月末時点でまだ1,300元でしたが、2026年1月には2,700元まで高騰しました。3カ月で2倍になるのは、消費者市場では極めて稀なことです。

Samsungのメモリ事業は、2025年第4四半期に四半期ベースで過去最高の営業利益を記録し、20兆ウォン（約962億元）を突破しました。そして、この1年以上の上昇の最も根本的な原動力は、スマートフォンやPCの消費者向け買い替え需要ではなく、AIデータセンターによるHBM、エンタープライズSSD、高密度DRAMの大量調達です。

5月のゴールドマン・サックスによる報告書は、この計算を極限まで押し進めました。

報告書は、2026年から2031年までの世界のAIインフラへの累積設備投資額を約7.6兆ドルと予測しています。2026年は単年で7,650億ドル、2031年には1.6兆ドルに達します。このうち、基準GPU 1基（NVIDIA VR200 Rubinベース）を8万500ドルとして計算すると、NVIDIAが各期間の総計算能力支出の75%を占めるとしています。

ゴールドマン・サックスは報告書の中で、重要な疑問も追及しています。ASIC（特定用途向け集積回路）がGPUを大量に代替した場合、総需要を削減できるのか？

答えは場合によります。もし需要に弾力性がなければ（企業のAI計算需要が固定されている場合）、ASICへの代替は総資本需要を直接削減できます。しかし、需要に弾力性がある場合（計算能力が安ければ安いほど多く購入する場合）、チップ構成の変更は主に異なるサプライヤー間での利益配分を再形成するものであり、総支出規模には影響しません。

ゴールドマン・サックスの基本シナリオは後者を選択しています。

米国株式市場の価格も同じ方向に動いています。SanDiskは年初来で857%上昇し、Bernsteinは6月30日のリポートで目標株価を3,000ドルに引き上げました。AMDは1日で7%上昇し、史上最高値を更新しました。GPUメーカー、ストレージメーカー、パッケージングメーカー、データセンター機器メーカー、すべてが新高値圏にあります。

Edgen.techが6月11日の総括記事で引用した次の数字は、最も衝撃的です。メモリチップの価格は過去1年間で6倍に上昇しました。

「循環的な回復」というレッテルは貼れません。6倍も上昇したものの背後には、経済システム全体の需要がAIの物理的インフラストラクチャーを再評価しているという事実があります。

根源：ジェボンズは1865年にすでに答えを出していた

ウィリアム・スタンリー・ジェボンズは1865年に『石炭問題』という本を書きました。

彼の中心的な観察は、ワットが蒸気機関を改良した後、単位石炭消費量は大幅に減少したにもかかわらず、英国の石炭総消費量は減少せず、むしろ増加したというものです。なぜなら、効率向上により蒸気動力がより多くの産業でコスト的に許容可能になったからです。繊維、鉄道、鉱業、海運など、それぞれの新しい用途が、それまで存在しなかった石炭需要を生み出しました。

160年後、同じ方程式がAI計算能力において繰り返されています。

企業は計算しました。2022年のトークン価格では、リアルタイムの推論によるカスタマーサービス対話は経済的に成り立ちませんでした。緊急でないシナリオではAIを実行する価値がありませんでした。パーソナライズされたコンテンツ生成はセグメントレベルでしか実行できず、ユーザーレベルでは不可能でした。2025年には、価格が1000分の1に低下し、これらの「かつて存在しなかった需要」はすべて必須の需要へと変わりました。

NebiusのChernin氏は、最も直接的な要約を述べています。「同じ単位の知能をより安くするたびに、私たちは消費を減らしているのではなく、増やしているのです。なぜなら、同じ予算でより複雑なタスクを解決できるようになるからです。」

市場は、もう一つの構造的な推進力、すなわち粗利益率の正のフィードバックを見落としていました。

AI推論の粗利益率曲線には、歴史的な類似物を見つけることはできません。APIを提供する企業は、初期段階では粗利益率がわずか10%かもしれません。モデルのトレーニングも推論も高価だからです。しかし、ソフトウェアの最適化（オペレーター融合、量子化、投機的復号化）は毎月推論コストを圧縮し、価格設定の調整は常に遅れをとります。その結果、粗利益率が10%から90%に上昇する速度は、どの伝統的な産業よりも速くなっています。

粗利益率が利益を生み、利益が追加調達を促進し、調達がコストを薄める。正のフィードバックループであり、天井はありません。

「DRAMがあればトークンを売ることができ、DRAMがなければトークンを売ることはできない。」この言葉は、AIチップ需要の基本方程式になりつつあります。

ゴールドマン・サックス報告書の2つの感応

テクノロジー

Odaily公式コミュニティへの参加を歓迎します