BTC
ETH
HTX
SOL
BNB
查看行情
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

The cheaper AI gets, the more expensive chips become

星球君的朋友们
Odaily资深作者
2026-07-01 10:00
本文約4526字,閱讀全文需要約7分鐘
In the past narrative of AI, there was a line of thinking: inference efficiency would kill the demand for chips. However, the reality is that the cheaper AI becomes, the more valuable physical computing power gets—every dollar that model companies slash from their prices ultimately flows into the pockets of chip and wafer fabs.
AI總結
展開
  • Core Viewpoint: The continuous and significant decline in the cost of AI model inference (a reduction of about 1000 times over three years) has not led to a decrease in demand for computing power. Instead, it has driven an exponential increase in token consumption (doubling every two months) due to a surge in application scenarios and deeper usage. This has caused total expenditure to explode upward, ultimately exacerbating the supply-demand tension and price increases for physical infrastructure like computing power and storage.
  • Key Elements:
    1. The pricing of Claude Sonnet 5 is only 40%-60% of the flagship Opus 4.8, but its performance reaches over 90% of it, reflecting the continuous improvement in the cost-efficiency of AI models.
    2. After model price reductions, total enterprise AI spending grew against the trend: global enterprise spending on generative AI was $11.5 billion in 2024, soaring to $37 billion in 2025, a year-over-year increase of 320%.
    3. Demand for computing power transmits to the hardware market. The spot prices of DRAM and NAND Flash have accumulated an increase of over 300% since the third quarter of 2025, with memory chip prices rising six-fold within a year.
    4. Goldman Sachs predicts cumulative global capital expenditure on AI infrastructure from 2026 to 2031 to be approximately $7.6 trillion. Based on a baseline GPU price of $80,500, NVIDIA accounts for 75% of total computing power spending.
    5. The combination of three factors—application proliferation, deepening usage of individual applications, and increased model complexity—has driven token consumption from an average of hundreds of daily interactions in 2023 to tens of thousands in 2025, with each interaction triggering multiple subsequent inferences.
    6. The Jevons paradox is repeating itself in the AI field: Watt's improvement of the steam engine reduced coal consumption per unit of work but increased total coal consumption. Similarly, improvements in AI inference efficiency stimulate even greater demand for computing power.

原文來源:華爾街見聞

6 月 30 日,Anthropic 發佈了 Claude Sonnet 5。

這是一款中階模型,Sonnet 系列裡「最能幹活」的。代理能力測試 SWE-bench Pro 上跑出 63.2 分——離旗艦 Opus 4.8 的 69.2 分只差 6 分。另一個維度上,研究生級推理測試 GPQA-AAA v2 上,Sonnet 5 反倒壓了 Opus 4.8 一頭。

定價更關鍵。優惠期內每百萬輸入 token 收 2 美元,輸出 10 美元。Opus 4.8 對應的價格是 5 美元和 25 美元——Sonnet 5 用四到六成的價格,跑出了旗艦九成以上的能力。

這條新聞可以有兩種讀法。

第一種:AI 又變便宜了。成本下降利好所有人,Chatbot 戰爭繼續,模型廠商卷生卷死。

第二種——也是市場正在定價的——模型越便宜,算力和儲存反而越貴。

Claude Sonnet 5 發佈當天,美國半導體指數漲近 4%。過去三年的 AI 敘事裡有一條明線:推理效率會幹掉晶片需求。但這個判斷在每一個數據節點上都錯了。

降價:三年降了一千倍

先看降價這條線。

2022 年,GPT-4 級別 API 調用成本約每千 token 0.03 美元。到 2025 年,同等性能級別模型的價格——按史丹佛 AI Index Report 的口徑——降了約 280 倍。加上開源和效率提升的綜合效應,業界公認的降幅是 1000 倍。

降了不只一種模型,是每一家都在降。

Anthropic 這次 Sonnet 5 對標 Opus 4.8 的能力密度,定價只有四到六成。Google 的 Gemini Omni Flash 影片生成每秒 0.10 美元,Nano Banana 2 Lite 圖像模型 4 秒出圖、每千張只要 0.034 美元——是前代的一半。DeepSeek-V4-Pro 把百萬 token 輸入打到了 0.035 美元的水平。

降價不止發生在定價表上。

6 月 24 日,The Information 報導 OpenAI 在內部找到了一項純軟體優化技術——某個運算環節的 GPU 需求被砍掉了一半不止,專用 GPU 池子從幾千台驟降到幾百台。同月,Meta 提出了 Vistara 方案:把退役伺服器拆下來的 DDR4 記憶體透過自研 CXL 晶片重新接上,和 DDR5 按 3:1 搭配,推理伺服器成本壓降 25%。

到了 6 月 30 日,階躍開源了推測解碼技術 JetSpec——大模型推理速度可以提升近 10 倍。換算下來,同樣的 token 輸出量,需要的 GPU 數可以陡降一個數量級。

如果 AI 是一個傳統的成本-需求函數,這些訊號應該指向一件事:未來需要的晶片變少了。

華爾街是這麼恐懼的。

1 月 DeepSeek 發佈 R1 的那個週末,AI 基礎設施股經歷了近年最猛烈的拋售。AI 雲公司 Nebius 股價暴跌 40%。故事線很簡單:中國開源模型用 0.1 美元賣 token,美國公司花 2 美元,算力需求必然坍縮。

爆炸:總支出反漲 320%

但實際發生的事情完全相反。

Nebius 聯合創始人 Roman Chernin 後來回憶:DeepSeek 引發恐慌的那個星期,「可能是我們銷售最好的一週」。公司採購部門看到成本驟降後的第一反應不是砍預算,而是終於可以大規模跑推理了。

2024 年,全球企業的生成式 AI 總支出約 115 億美元。2025 年,這個數字飆升到了 370 億美元——一年漲了 320%。按 Menlo Ventures 的企業調研,中位企業在 2025 年運行著「數十個」AI 應用,而 2023 年這個數字是 1 到 2 個。

各個維度的數據都在同一條曲線上:

Uber 在 2026 年 4 月就已經燒完了全年的 AI 預算。AT&T 目前日處理 270 億 token——18 個月前,這個數字是 8 億。一家美國大型醫保公司,月 token 消耗從 300 萬一口氣衝到了 1.5 億以上。

拆開看,增長來自三個方向的疊加。

第一是應用擴散。每家企業的行銷部用了 3 個 AI 工具,銷售部 4 個,客服部 2 個,加上法務、HR、財務——從 2 個到幾十個,這是數量級的跳躍。
第二是單應用深度。以客服 AI 為例:2023 年日交互量約 500 次,每次約 800 個 token,做完對話就結束。到 2025 年,日交互 15000 次,每次約 4500 個 token,每次交互還要再觸發 3 到 5 次後續推理——情感分析、升級預測、品質評分——全部疊加在同一個入口上。
第三是模型本身的複雜度升級。從 7B 參數的單輪模型,升級到 70B 以上的多步推理代理,每一輪內部推理所消耗的 token 是線性交互的幾十倍到上百倍。

換句話說,token 成本降到了千分之一,市場用掉的 token 數漲了數萬倍。乘起來的淨效應只有一個方向:支出爆炸。

Token 消耗量每兩個月翻一倍——多條獨立線索拼出了同一個數字。把這條指數曲線畫到 2027 年,企業 AI 年支出破千億美元是算術問題,不是預測問題。

傳導:儲存漲了六倍,晶片基建指向 7.6 兆

降價刺激出的需求沒有停留在軟體層。

儲存器價格的漲幅,是 AI 需求從模型層向硬體層傳導最直接的訊號。

2025 年三季度起,DRAM 和 NAND Flash 現貨價格累計漲幅均超過 300%。DDR5 顆粒在單月內漲幅一度突破 90%。進入 2026 年,漲價不但沒停,反而加速了。

一季度 DRAM 合約價漲幅從預期的 55%-60%被上修到 90%-95%;NAND 從 33%-38%上修到 55%-60%。二季度 TrendForce 的預測是 DRAM 再漲 58%-63%,NAND 再漲 70%-75%。

以消費級產品為錨:宏碁掠奪者 32G DDR5 6000 套條,2025 年 10 月底價格還在 1300 元,到 2026 年 1 月已經飆到 2700 元。三個月翻倍,放在消費品市場上極其罕見。

三星儲存業務在 2025 年四季度錄下单季營業利潤歷史新高——突破 20 兆韓元、約合人民幣 962 億元。而這一年多的漲勢最根本的推力並非來自手機或 PC 的消費級換代,而是 AI 數據中心對 HBM、企業級 SSD、高密度 DRAM 的巨量採購。

高盛 5 月的一份報告把這筆帳算到了極致。

報告預測,2026 年到 2031 年全球 AI 基礎設施累計資本支出約 7.6 兆美元。2026 年單年 7650 億美元,到 2031 年攀升至 1.6 兆。其中,單顆基準 GPU(基於 NVIDIA VR200 Rubin)按 8.05 萬美元計算,NVIDIA 佔各期總算力支出的 75%。

高盛在報告裡還追問了一個關鍵問題:如果 ASIC(專用晶片)大量替代 GPU,是否能削減總需求?

答案是分情況的。如果需求缺乏彈性——企業的 AI 算力需求是固定的——ASIC 替代可以直接降低總資本需求。但如果需求有彈性——算力越便宜就買得越多——晶片組合的改變主要重塑的是利潤在不同供應商之間的分配,而不是總支出規模。

高盛的基準情景選的是後者。

美股價格也在往同一個方向走。閃迪自年初以來漲了 857%,Bernstein 在 6 月 30 日的報告中將目標價上調至 3000 美元。AMD 一天漲 7%創歷史新高。做 GPU 的、做儲存的、做封裝的、做數據中心設備的——全部在新高附近。

Edgen.tech 在 6 月 11 日的綜述文章裡引用的這個數字最有衝擊力:記憶體晶片價格在過去一年裡漲了六倍。

「週期性回升」這個標籤貼不上去。漲了六倍的東西,背後是整個經濟體系的需求在重新定價 AI 的物理基礎設施。

根源:Jevons 在 1865 年就已經回答過

威廉·史坦利·傑文斯在 1865 年寫了一本書叫《煤炭問題》。

他的核心觀察是:瓦特改良蒸汽機後,單位煤耗大幅下降,英國的煤炭總消費量反而不降反升。因為效率提升意味著蒸汽動力在更多行業成本可接受了——紡織、鐵路、採礦、航運——每一個新場景都創造出了原來不存在的煤炭需求。

160 年後,同樣的公式在 AI 算力上重演了。

企業算過帳。2022 年的 token 價格下,即時推理客服對話在經濟上不可行。非緊急場景不值得跑 AI。個人化內容生成只能做細分群體級別,做不到用戶級別。到了 2025 年,價格降了 1000 倍,這些「原來不存在的需求」全變成了剛需。

Nebius 的 Chernin 給了一句最直接的總結:「每一次我們讓同樣單位的智慧變得更便宜,我們不是在減少消耗,而是在增加消耗——因為同樣的預算可以解決更複雜的任務了。」

市場忽略了另一個結構性推力:毛利率的正回饋。

AI 推理的毛利率曲線在歷史上找不到對應物。一家提供 API 的公司,起步階段毛利率可能只有 10%——模型訓練貴、推理貴。但軟體優化(算子融合、量化、推測解碼)每個月都在壓推理成本,而定價調整總是慢半拍。於是毛利率從 10%爬到 90%的速度比任何傳統行業都要短。

毛利率驅動利潤,利潤追加採購,採購攤薄成本——正回饋迴路,沒有天花板。

「你有 DRAM 就能賣 token,沒有 DRAM 就無法賣 token。」這句話正在成為 AI 晶片需求的基本方程。

高盛報告的兩個敏感性假設也在加深同一個判斷。晶片經濟壽命如果從 5 年縮到 3 年,替換週期加速,累計資本需求直接上台階。每晶片記憶體比預期高 25%——主要改變的是晶片堆疊內部的支出分配,對 7.6 兆總盤子的淨影響有限,但方向是同一個:錢不會少花。

終局:誰握住了算力

Fable 5 出口管制解除——6 月 12 日禁、6 月 30 日解,前後三週——給了這個悖論一個意外的註腳。

管制的理由是「國家安全風險」。解除管制跟風險消失沒關係——替代品出現了。Tulongfeng 等亞洲團隊在管制期內推出了接近 Mythos 級的模型,封鎖的威懾力迅速歸零。解禁是現實使然,跟善意無關。

這段插曲恰好卡在 AI 降本悖論的主線上:模型是可替代的。從 GPT 到 Claude 到 DeepSeek 到開源模型,沒有人能壟斷 AI 的能力本身——有人設卡,就有人繞路。

硬體不是這套邏輯。

GPU 不行。DRAM 不行。晶圓廠的建設週期以年為單位。光刻機的產能上限是固定的。高純度矽的供給彈性近乎零。這些都是物理定律,不是商業策略。軟體優化可以壓模型成本一千倍,但壓不下一個晶圓廠的建設週期一天。

AI 模型降價的終點,如果這個悖論繼續跑下去,不指向去算力化——指向算力定價權的再集中。不管你是用誰的模型,token 都得跑在某人的晶片上。模型廠商捲價格的每一分錢,最後都變成了數據中心、晶圓廠和儲存產線帳簿上的收入。降本越兇,這個轉移越不可逆。

技術
AI
歡迎加入Odaily官方社群