為什麼多模態的模組化是Web3 AI的錯覺? -web3资讯-ODAILY

原文作者： @BlazingKevin_ ，the Researcher at Movemaker

英偉達已經悄然收復了 Deepseek 帶來的全部跌幅，甚至再度攀上新高，多模態模型的進化並沒有帶來混亂，反而加深了Web2 AI 的技術壁壘——從語義對齊到視覺理解，從高維嵌入到特徵融合，複雜模型正以前所未有的速度整合各種模態的表達方式，構建出一個愈發封閉的 AI 高地。美股市場也用腳投票，無論是幣股還是 AI 股，紛紛走出一波小牛行情。而這股熱浪，卻和 Crypto 沒有一點關聯。我們看到的Web3 AI 嘗試，特別是近幾個月 Agent 方向的演化，方向性幾乎完全錯誤：一廂情願地想用去中心化結構去拼裝Web2式的多模態模組化系統，實際上是一種技術和思維的雙重錯位。在模組耦合性極強、特徵分佈高度不穩定、算力需求日益集中的今天，多模態模組化在Web3裡根本立不住。我們要指出的是：Web3 AI 的未來不在模仿，而在策略性迂迴。從高維空間的語義對齊，到注意力機制中的信息瓶頸，再到異構算力下的特徵對齊，我將一一展開，解釋為什麼Web3 AI 要以農村包圍城市作為戰術綱領.

Web3 AI 基於扁平化的多模態模型，語意無法對齊導致效能低下

在現代Web2 AI 的多模態系統中，「語意對齊」指的是將來自不同模態（如圖像、文字、音訊、視訊等）的資訊對應到同一個、或可互相轉換的語意空間中，使得模型能夠理解並比較這些原本形式迥異的訊號背後的內在意義。舉例來說，一張貓的照片和一句「a cute cat」這段文字，模型需要在高維嵌入空間中將它們投影到彼此接近的位置，這樣才能在檢索、生成或推理時做到「看圖能說話」「聽音能聯想畫面」。

只有在實現高維嵌入空間的前提下, 將工作流分成不同模組才有降本增效的意義. 但是在web3 Agent 協議裡, 卻無法實現高維嵌入, 因為模組化是Web3 AI 的錯覺.

如何理解高維嵌入空間? 在最直觀的層面，把「高維嵌入空間」想像成一個座標系——就像平面上的x–y 座標那樣，你可以用一對數字來定位一個點。只是在我們常見的二維平面裡，一個點由兩個數（x, y）完全決定；而在「高維」空間裡，每個點要用更多的數字來描述，可能是128 個、 512 個，甚至上千個數字。

由淺入深，分三步驟來理解：

二維範例：
想想你在地圖上標記了幾個城市的座標，例如北京（116.4, 39.9）、上海（121.5, 31.2）、廣州（113.3, 23.1）。這裡每個城市就對應一個「二維嵌入向量」（embedding vector）：兩維座標把地理位置資訊編碼進了數字裡。
如果你想衡量城市之間的「相似度」——在地圖上距離近的城市往往在同一經濟區或氣候區——就可以直接比較它們座標的歐氏距離。
擴展到多維：
現在假設你不僅想描述「地理空間」上的位置，還想加上一些「氣候特徵」（平均氣溫、降雨量）、「人口特徵」（人口密度、GDP）等。你就可以為每個城市分配一個包含這5、 10、甚至更多維度的向量。
例如廣州的5 維向量可能是[ 113.3, 23.1, 24.5, 1700, 14.5 ]，分別代表經度、緯度、平均氣溫、年降雨量（毫米）、經濟指數。這個「多維空間」允許你同時按地理、氣候、經濟等多個維度比較城市：如果兩個城市的向量很接近，就意味著它們在這幾種屬性上都非常相似。
切換到語意學－為什麼要「嵌入」：
在自然語言處理（NLP）或電腦視覺中，我們也希望把「詞語」、「句子」或「圖像」映射到一個這樣的多維向量裡，讓「相似意思的」詞或圖像在空間裡靠得更近。這個映射過程就叫做「嵌入」（embedding）。
舉例：我們訓練一個模型，把「cat」（貓）映射到一個300 維向量v₁，把「dog」（狗）映射到另一個向量v₂，把「不相關」的單字例如「economy」（經濟）映射到v₃。那麼在這個300 維空間中，v₁ 和v₂ 的距離會很小（因為它們都是動物、經常在類似的語言環境中出現），而v₁ 距離v₃ 會很大。
隨著模型在海量文字或圖像-文字對上訓練，它學到的每一維並不直接對應「經度」、「緯度」之類的可解釋屬性，而是某種「隱含語意特徵」。有的維度可能捕捉到“動物vs. 非動物”這一粗粒度劃分，有的維度可能區分“家養vs. 野生”，還有的維度可能對應“可愛vs. 威猛”的感覺……總之，成百上千個維度共同工作，才能把各種複雜的、交織的語義層面都編碼進去。

高維和低維的差距是什麼? 只有足夠多的維度，才能容納多種多樣、互相交織的語義特徵, 只有高維能讓它們在各自的語義緯度上有更清晰的位置。當語義無法被區分,即語義無法對齊時, 低維空間中不同信號相互“擠壓”，導致模型在檢索或分類時頻繁產生混淆，準確率大幅下降；其次，策略生成階段難以捕捉細微差異，容易漏掉關鍵交易信號或誤判風險閾值，直接拖累收益；再者，跨模組協同變得不可能，各Agent各自為政，資訊孤島現象嚴重，整體響應時延增大、魯棒性變差；最後，面對複雜市場場景，低維結構幾乎無容量承載多源數據，系統穩定性和擴展性都難以保障，長期運行勢必陷入性能瓶頸和維護困境, 導致產品落地後表現和最初的預想差距甚遠.

那麼Web3 AI 或 Agent 協議能夠實現高維嵌入空間嗎? 首先回答高維空間是怎麼實現的, 傳統意義上的「高維度」要求各子系統——如市場情報、策略生成、執行落地、風險控制——在數據表示和決策流程上相互對齊、互補增益。而多數Web3 Agent 只是把現成API（CoinGecko、DEX 介面等）各自封裝成獨立“Agent”，缺乏統一的中樞嵌入空間和跨模組注意力機制，導致資訊無法在模組間多角度、多層次地交互，只能走線性流水線，表現出單一功能，無法形成整體閉環優化。

很多Agent 直接呼叫外部接口，甚至未對接口返回資料做足夠的微調或特徵工程。例如市場分析Agent 僅簡單取價格與成交量，交易執行Agent 只按介面參數下單，風險控制Agent 只是按照幾個閾值警報。它們各司其職，但缺乏對同一風險事件或市場訊號的多模態融合與深度語意理解，導致系統不能在面對極端行情或跨資產機會時，快速產生綜合性、多角度的策略。

因此, 要求Web3 AI 實現高維空間, 變相等於要求 Agent 協議自行開發所有涉及的 API 接口, 這與其模組化的初衷是背道而馳, Web3 AI 里中小企業描繪的模組化多模態系統是經不起推敲的. 高維度架構要求端到端的統一訓練或協同環優化：從信號到共享的優化函數。 Web3 Agent 的「模組即插件」想法反而加劇了碎片化——每個Agent 升級、部署、調參都在各自silo 內完成，難以同步迭代，也無有效的集中監控與反饋機制，造成維護成本飆升，整體性能受限。

要實現具有行業壁壘的全鏈路智能體，需要從端到端的聯合建模、跨模組的統一嵌入，以及協同訓練與部署的系統化工程才能破局, 但是當前市場並沒有這樣的痛點存在, 自然也沒有市場需求.

低維度空間中，注意力機制無法精密設計

高水準的多模態模型需要設計精密的注意力機制. 「注意力機制」本質上是一種動態分配計算資源的方式，能夠讓模型在處理某一模態輸入時，有選擇地「聚焦」到最相關的部分。最常見的是Transformer 中的自註意力（self‑attention）和跨注意力（cross‑attention）機制：自註意力使模型內部能夠衡量序列中各元素兩兩間的依賴關係，例如文本中每個詞與其他詞的重要性；跨注意力則讓一條模態的信息（如文本生成）在看另一條模態（如文本的特徵序列）透過多頭注意力（multi‑head attention），模型能在不同的子空間同時學習多種對齊方式，從而捕捉更複雜、更細微的關聯。

注意力機制發揮作用的前提是多模態具備高維度, 在高維度空間中, 精密的注意力機制能在最短時間裡從海量高維度空間中找到最核心的部分. 在解釋為什麼注意力機制需要被放在高維度空間中才能施展作用前, 我們先了解以Transformer 解碼器為代表Web2 AI 在設計注意力機制中才能施展作用前, 我們先了解以Transformer 解碼器為代表Web2 AI 在設計注意力機制時的流程.核心思想是在處理序列（文字、圖像patch、音頻幀）時，模型給每個元素動態分配“注意力權重”，讓它聚焦最相關的信息，而不是盲目平等對待。

簡單來說, 如果把注意力機制比作一台車,設計 Query‑Key‑Value 是設計引擎. QKV 是幫助我們確定關鍵資訊的機制, Query 指查詢(“我要找什麼”), Key 指索引(“我有什麼標籤”), Value 指內容(“這裡有什麼內容”). 對於多模態模型這些輸入會被切割成最小單位, 如一個字元、一定像素大小的小塊或者一段音頻幀, 多模態模型會給這些最小單位生成 Query、Key、Value，來進行注意力計算。當模型處理某個位置時，它會用這個位置的Query 去對比所有位置的Key，判斷哪些標籤與當前需求最匹配，然後根據匹配程度，從對應的位置把Value 抽取出來並按重要性加權組合，最終得到一個既包含自身信息又融入了全局相關內容的新表示。這樣，每一個輸出都能根據上下文動態“提問—檢索—整合”，實現高效而精準的信息聚焦。

在此引擎的基礎上,增添各種零件, 巧妙地把“全局交互”與“可控複雜度”結合起來：縮放點積保障數值穩定，多頭並行豐富表達，位置編碼保留序列順序，稀疏變體兼顧效率，殘差與歸一化助力穩定訓練，交叉注意力打通多模態。這些模組化又層層遞進的設計，使得Web2 AI 在處理各種序列與多模態任務時，既擁有強大的學習能力，又能在可承受的算力範圍內高效運作。

為什麼基於模組化的Web3 AI 不能實現統一的注意力調度? 首先, 注意力機制依賴於統一的Query–Key–Value 空間，所有輸入特徵都要被映射到同一個高維向量空間，才能透過點積計算動態權重。而獨立API 各自返回不同格式、不同分佈的資料——價格、訂單狀態、閾值警報——沒有統一的嵌入層，根本無法形成一組可互動的Q/K/V。其次, 多頭注意力允許在同一層同時並行關注不同信息源，然後聚合結果；而獨立API 常常是“先調用A，再調用B，再調用C”，每一步的輸出只是下一個模組的輸入，缺少並行、多路動態加權的能力，那種自然無法模擬注意力機制中同時對所有位置或所有模態打分、再綜合的精細調度、綜合再綜合的精細調度。最後, 真正的注意力機制會基於整體上下文為每個元素動態分配權重；API 模式下，模組只能看到自己被調用時“獨立的”上下文，彼此之間沒有實時共享的中樞上下文，也就無法實現跨模組的全局關聯和聚焦。

因此，僅靠將各類功能封裝成離散的API——沒有共同的向量表示、沒有並行加權與聚合，就無法構建出像Transformer 那樣的“統一注意力調度”能力, 就如同一輛發動機性能低下的車無論怎樣改裝都難以提高上限.

離散型的模組化拼湊，導致特徵融合停留在淺顯的靜態拼接

「特徵融合」則是在對齊和注意力的基礎上，將不同模態處理後得到的特徵向量進行進一步組合，以供下游任務（分類、檢索、生成等）直接使用。融合手段可以簡單到拼接、加權求和，也可以複雜到雙線性池化、張量分解甚至動態路由技術。更高階的方法則是在多層網路中交替進行對齊、注意力和融合，或透過圖神經網路（GNN）在跨模態特徵之間建立更靈活的訊息傳遞路徑，以實現訊息的深度交互作用。

自不必說, Web3 AI 當然是停留在最簡單的拼接的階段, 因為動態特徵融合的前提是高維空間以及精密的注意力機制, 當前提條件無法具備時, 自然最後階段的特徵融合也無法做到性能出色.

Web2 AI 傾向於端到端聯合訓練：在同一個高維空間中同時處理影像、文字、音訊等所有模態特徵，透過注意力層和融合層與下游任務層一起協同優化，模型在前向與反向傳播中自動學習最優的融合權重和交互方式；而Web3 AI 則更多采用離散模組拼接的做法，將圖像識別、行各類抓取、風險評估等各類抓取封裝為獨立Agent，再把它們各自輸出的標籤、數值或閾值警報簡單拼湊，由主線邏輯或人工進行綜合決策，這種方式既缺乏統一的訓練目標，也沒有跨模組的梯度流動。

在Web2 AI 中，系統依托注意力機制，能夠根據上下文即時計算各類特徵的重要性分數，並動態調整融合策略；多頭注意力還可在同一層面並行捕捉多種不同的特徵交互模式，從而兼顧局部細節與全局語義。而Web3 AI 則常常事先固定好「影像× 0.5 + 文字× 0.3 + 價格× 0.2 」這樣的權重，或用簡單的if/else 規則來判斷是否融合，要麼根本不做融合，只把各模組輸出一併呈現，缺乏彈性。

Web2 AI 將所有模態特徵映射到數千維的高維空間，融合過程不僅是向量拼接，還包括加法、雙線性池化等多種高階交互操作——每維度都有可能對應某種潛在語義，使模型能夠捕捉深層、複雜的跨模態關聯。相較之下，Web3 AI 的各Agent 輸出往往僅含幾個關鍵字段或指標，特徵維度極低，幾乎無法表達諸如“圖像內容與文本含義為何匹配”或“價格波動與情感走勢的微妙關聯”這類細膩信息。

在Web2 AI 中，下游任務的損失會透過注意力層和融合層不斷回傳到模型各部分，自動調整哪些特徵應被強化或抑制，形成閉環優化。反觀Web3 AI，其API 呼叫結果上報後多仰賴人工或外部流程來評估和調參，缺少自動化的端到端反饋，導致融合策略難以在線迭代和優化。

AI 產業的壁壘正在加深，但痛點還未出現

正因為要在端到端的訓練中同時兼顧跨模態對齊、精密的注意力計算和高維度特徵融合，Web2 AI 的多模態系統往往是一個極其龐大的工程項目。它不僅需要海量、多樣化且精標註的跨模態資料集，還得投入數以千計的GPU 數週乃至數月的訓練時間；在模型架構上，融合了各種最新的網絡設計理念和優化技術；在工程實現上，還要搭建可擴展的分佈式訓練平台、監控系統、模型版本管理這樣全連結、全端的系統性工作，對資金、數據、算力、人才乃至組織協同的要求都極高，因此構成了極強的行業壁壘，也造就了截至目前少數領先團隊所掌握的核心競爭力。

我在 4 月回顧中文 AI 應用, 並對比WEB3 ai 時提到一個觀點:在壁壘很強的產業上，Crypto 有可能實現突破，意思某些產業在傳統市場中已經非常成熟，但是又出現巨大的痛點，成熟度高意味著有充分的用戶熟悉類似商業模式，痛點意味著大用戶願意嘗試新的解決方案，即對 Crypto的接受意願強，二者缺一不可，即反過來說，如果不是在傳統市場中已經非常成熟，但是又出現巨大的痛點的產業，Crypto 無法在其中紮根，不會有生存空間，用戶願意充分了解它的意願很低，對於它的潛在上限不了解。

WEB3 AI 或任何打著 PMF 旗號的 Crypto 產品都需要以農村包圍城市的戰術去發展,應該在邊緣陣地小規模試水, 確保基礎牢固後, 再等待核心場景也就是目標城市的出現.Web3 AI 的核心在於去中心化，其演進路徑體現為高並行、低耦合及異構算力的兼容性。 **這使得Web3 AI 在邊緣運算等情境中更具優勢，適用於輕量化結構、易並行且可激勵的任務，例如 LoRA 微調、行為對齊的後訓練任務、眾包資料訓練與標註、小型基礎模型訓練，以及邊緣設備協同訓練等。這些場景的產品架構輕巧，路線圖可靈活迭代。但這並不是說機會在現在, 因為WEB2 AI 的壁壘才剛開始形成的初期, Deepseek 的出現反而激發了多模態複雜任務 AI 的進步, 這是頭部企業的競爭, 是WEB2 AI 紅利出現的早期階段, 我認為只有當WEB2 AI 的紅利消失殆盡時、它遺留下來的痛AI 的自創痛點還會層出不窮的進入市場, 我們需要仔細辨別其中具有「農村包圍城市」的協議, 是否從邊緣切入, 先在力量薄弱、市場紮根場景少的鄉村（或小市場、小場景）站穩腳跟，逐步積累資源和經驗;是否斷面結合、環形更新億美元市值難於登天, 這類項目也不會在關注列表中; 是否可以打持久戰與靈活機動, WEB2 AI 的潛在壁壘在動態變化, 與之對應的潛在痛點也在進化, 我們需要關注WEB3 AI 協議是否需有充分的靈活性, 對於不同場景可以靠靈活結構, 能在農村之間快速移動, 最快速度，目標可能靠得

關於 Movemaker

Movemaker 是由 Aptos 基金會授權，經 Ankaa 和 BlockBooster 共同發起的首個官方社區組織，專注於推動 Aptos 華語區生態的建設與發展。身為 Aptos 在華語區的官方代表，Movemaker 致力於透過連結開發者、使用者、資本及眾多生態合作夥伴，打造一個多元、開放、繁榮的Aptos 生態系統。

免責聲明：

本文/部落格僅供參考，代表作者的個人觀點，並不代表 Movemaker 的立場。本文無意提供：(i) 投資建議或投資推薦；(ii) 購買、出售或持有數位資產的要約或招攬；或(iii) 財務、會計、法律或稅務建議。持有數位資產，包括穩定幣和 NFT，風險極高，價格波動較大，甚至可能變得一文不值。您應根據自身的財務狀況，仔細考慮交易或持有數位資產是否適合您。如有具體情況方面的問題，請諮詢您的法律、稅務或投資顧問。本文提供的資訊（包括市場數據和統計信息，若有）僅供一般參考。在編寫這些數據和圖表時已盡合理注意，但對其中所表達的任何事實性錯誤或遺漏概不負責。