なぜマルチモーダルモジュール性は Web3 AI にとって幻想なのでしょうか?

特邀专栏作者

2025-06-18 12:44

この記事は約6448文字で、全文を読むには約10分かかります

Web3 AIの未来は模倣ではなく、戦略的な迂回路にあります。高次元空間における意味的整合から、注目機構における情報ボトルネック、そして異機種混在の計算パワー下における特徴量整合まで、Web3 AIが農村から都市へのアプローチを戦術プログラムとして採用すべき理由を説明します。

Movemakerの研究員、@BlazingKevin_によるオリジナル記事

NvidiaはDeepseekによる損失を静かに回復し、さらに過去最高値を更新しました。マルチモーダルモデルの進化は混乱をもたらしたのではなく、Web2 AIの技術的障壁をさらに深めました。意味的整合から視覚的理解、高次元埋め込みから特徴量融合まで、複雑なモデルは前例のないスピードで様々なモーダル表現を統合し、ますます閉鎖的なAIハイランドを築き上げています。米国株式市場もその動きに追随しました。通貨株であれAI株であれ、いずれも強気相場の波を経験しました。しかし、この熱波はCryptoとは無関係です。私たちが目にしてきたWeb3 AIの試み、特にここ数ヶ月のAgentの進化は、ほぼ完全に方向性を誤っています。分散構造を用いてWeb2スタイルのマルチモーダルモジュールシステムを構築するという希望的観測は、実際には技術と思考の二重の脱臼です。モジュール間の結合が非常に強く、機能の分布が非常に不安定で、コンピューティングパワーの要件がますます集中している今日の世界では、マルチモーダルモジュール化はWeb3では全く通用しません。私たちが指摘したいのは、Web3 AIの未来は模倣ではなく、戦略的な迂回路にあるということです。高次元空間における意味的整合から、注目機構における情報ボトルネック、そして異種コンピューティングパワー下における特徴量整合まで、Web3 AIがなぜ地方を戦略プログラムとして捉えるべきなのかを説明します。

Web3 AIはフラットなマルチモーダルモデルに基づいており、セマンティクスを整合させることができず、パフォーマンスが低下します。

現代のWeb2 AIのマルチモーダルシステムにおいて、「セマンティックアライメント」とは、異なるモダリティ（画像、テキスト、音声、動画など）の情報を、同一または相互に変換可能なセマンティック空間にマッピングすることを指します。これにより、モデルは元々異なる信号の背後にある固有の意味を理解し、比較することができます。例えば、猫の写真と「かわいい猫」という文章の場合、モデルは高次元埋め込み空間においてこれらを互いに近い位置に投影する必要があります。そうすることで、検索、生成、推論を行う際に、「画像を見て話す」「音を聞いて画像を連想する」といった処理が可能になります。

高次元の埋め込み空間が実現されて初めて、ワークフローを複数のモジュールに分割し、コストを削減して効率を高めることができます。しかし、Web3エージェントプロトコルでは、モジュール性はWeb3 AIの幻想であるため、高次元の埋め込みは実現できません。

高次元埋め込み空間をどのように理解すればよいのでしょうか？最も直感的なレベルでは、「高次元埋め込み空間」を座標系として想像してみてください。平面上のx-y座標のように、2つの数値を使って点の位置を特定できます。私たちが普段使っている2次元平面では、点は2つの数値（x, y）で完全に決定されますが、「高次元」空間では、各点はより多くの数値、つまり128、512、あるいは数千もの数値で表されます。

最も単純なものから最も複雑なものまで、3 つのステップで理解します。

2Dの例:
地図上に北京（116.4, 39.9）、上海（121.5, 31.2）、広州（113.3, 23.1）といった複数の都市の座標を記したと想像してください。ここで各都市は「2次元埋め込みベクトル」に対応しています。つまり、2次元座標は地理的な位置情報を数値にエンコードしたものです。
都市間の「類似性」を測りたい場合（地図上で互いに近い都市は同じ経済圏または気候圏にある傾向がある）、座標間のユークリッド距離を比較するだけで済みます。
複数の次元に拡張:
ここで、「地理空間」における位置だけでなく、「気候特性」（平均気温、降雨量）や「人口統計特性」（人口密度、GDP）なども記述したいとします。各都市に 5 次元、10 次元、あるいはそれ以上の次元を含むベクトルを割り当てることができます。
例えば、広州の5次元ベクトルは[113.3, 23.1, 24.5, 1700, 14.5]となり、それぞれ経度、緯度、平均気温、年間降水量（mm）、経済指数を表します。この「多次元空間」により、地理、気候、経済、その他の要素で都市を比較することができます。2つの都市のベクトルが非常に近い場合、これらの属性が非常に類似していることを意味します。
セマンティクスへの切り替え - なぜ「埋め込む」のか:
自然言語処理（NLP）やコンピュータービジョンにおいても、「単語」、「文」、あるいは「画像」をこのような多次元ベクトルにマッピングすることで、「類似した意味」を持つ単語や画像が空間的に近くなるようにすることが期待されます。このマッピング処理は「埋め込み」と呼ばれます。
例えば、「猫」を300次元ベクトルv₁、「犬」を別のベクトルv₂、「経済」などの「無関係な」単語をv₃にマッピングするようにモデルを学習します。すると、この300次元空間において、v₁とv₂の間の距離は小さくなります（どちらも動物であり、類似した言語環境に出現することが多いため）。一方、v₁とv₃の間の距離は大きくなります。
モデルは膨大な量のテキスト、または画像とテキストのペアでトレーニングされるため、学習する各次元は「経度」や「緯度」といった解釈可能な属性に直接対応するのではなく、ある種の「暗黙的な意味的特徴」に対応します。ある次元は「動物 vs. 非動物」といった大まかな区分を捉えるものもあれば、「家畜 vs. 野生」を区別するものもあり、「かわいい vs. 力強い」といった感情に対応するものもあります。つまり、数百、数千もの次元が連携して、複雑に絡み合ったあらゆる意味レベルをエンコードしているのです。

高次元性と低次元性の違いは何でしょうか？十分な次元数があれば、様々な意味的特徴が絡み合い、高次元性によって初めて、それらの特徴がそれぞれの意味的次元においてより明確な位置を占めるようになります。意味を区別できない場合、つまり意味を整合できない場合、低次元空間における異なるシグナルが互いに「圧迫」し合い、モデルは検索や分類の際に頻繁に混乱をきたし、精度が大幅に低下します。次に、戦略生成段階における微妙な差異を捉えることが困難になり、重要な取引シグナルを見逃したり、リスク閾値を誤って判断したりすることが容易になり、これがリターンのパフォーマンスを直接的に低下させます。さらに、モジュール間の連携が不可能になり、各エージェントが独立して行動し、情報島化現象が深刻化し、全体的な応答遅延が増加し、堅牢性が低下します。最後に、複雑な市場シナリオに直面した場合、低次元構造はマルチソースデータを運ぶ能力がほとんどなく、システムの安定性と拡張性を保証することが困難になります。長期にわたる運用では、パフォーマンスのボトルネックやメンテナンスの困難に陥る可能性があり、着陸後の製品パフォーマンスは当初の期待とはかけ離れてしまいます。

では、Web3 AIやエージェントプロトコルは高次元埋め込み空間を実現できるのでしょうか？まず、高次元空間はどのようにして実現されるのでしょうか？従来の意味での「高次元」とは、市場情報、戦略立案、実行・実装、リスク管理といった各サブシステムが、データ表現と意思決定プロセスにおいて連携し、相互補完することを指します。しかし、多くのWeb3エージェントは、既存のAPI（CoinGecko、DEXインターフェースなど）を独立した「エージェント」にカプセル化しているだけで、統一された中央埋め込み空間やモジュール間のアテンションメカニズムを欠いています。そのため、モジュール間で多角的・多階層の情報連携を行うことができません。線形パイプラインを辿り、単一の機能を示すことしかできず、全体的な閉ループ最適化を形成することができません。

多くのエージェントは外部インターフェースを直接呼び出し、インターフェースから返されるデータに対して十分な微調整や特徴量エンジニアリングさえ行いません。例えば、市場分析エージェントは価格と数量を取得するだけ、取引実行エージェントはインターフェースパラメータに従って注文を出すだけ、リスク管理エージェントは複数の閾値に従って警告を発するだけです。これらはそれぞれ独自の役割を果たしますが、マルチモーダルな融合や、同一のリスクイベントや市場シグナルに対する深い意味的理解が欠如しています。その結果、システムは極端な市場状況やクロスアセットの機会に直面した際に、包括的かつ多角的な戦略を迅速に生成することができません。

したがって、Web3 AIに高次元空間の実現を求めることは、エージェントプロトコルが関連するすべてのAPIインターフェースを自前で開発することを要求するのと同じであり、モジュール化という本来の意図に反する。中小企業がWeb3 AIで説明するモジュール型マルチモーダルシステムは、精査に耐えられない。高次元アーキテクチャは、エンドツーエンドの統一トレーニングまたは協調最適化を必要とし、シグナルキャプチャから戦略計算、実行、リスク管理まで、すべてのリンクが同じ表現と損失関数のセットを共有します。Web3エージェントの「モジュールをプラグインとして」という考え方により、断片化が悪化しています。エージェントのアップグレード、展開、パラメータ調整はそれぞれ独自のサイロで完了するため、同期的な反復が困難であり、効果的な集中監視およびフィードバックメカニズムがないため、メンテナンスコストが急増し、全体的なパフォーマンスが制限されます。

業界間の障壁を乗り越えてフルリンク型インテリジェントエージェントを実現するには、エンドツーエンドの共同モデリング、モジュール間の統合的な埋め込み、そして協調的なトレーニングと展開といったシステムエンジニアリングの課題を突破する必要があります。しかし、現在の市場にはそのような課題はなく、当然ながら市場からの需要もありません。

低次元空間では注意機構を正確に設計することはできない

高レベルなマルチモーダルモデルには、洗練されたアテンション機構が必要です。アテンション機構とは、本質的には計算リソースを動的に割り当てる方法であり、モデルが特定のモダリティの入力を処理する際に、最も関連性の高い部分に選択的に「フォーカス」することを可能にします。Transformerにおける最も一般的な機構は、自己アテンション機構と相互アテンション機構です。自己アテンション機構は、テキスト内の各単語と他の単語の重要度など、シーケンス内の各要素間の依存関係をモデルが測定することを可能にします。相互アテンション機構は、あるモダリティ（テキストなど）からの情報に基づいて、別のモダリティ（画像の特徴シーケンスなど）をデコードまたは生成する際に、どの画像特徴を「注目」するかを決定します。マルチヘッドアテンション機構により、モデルは異なるサブスペースにおける複数のアライメントを同時に学習し、より複雑できめ細かな関連性を捉えることができます。

注意機構が機能するための前提は、マルチモーダル性が高次元であることです。高次元空間では、洗練された注意機構が広大な高次元空間から最もコアとなる部分を最短時間で見つけることができます。注意機構が機能するために高次元空間に配置する必要がある理由を説明する前に、まず、Transformerデコーダーに代表されるWeb2 AIが注意機構を設計する際のプロセスを理解しましょう。その核となる考え方は、シーケンス（テキスト、画像パッチ、音声フレーム）を処理する際に、モデルが各要素に動的に「注意重み」を割り当てることで、盲目的に均等に扱うのではなく、最も関連性の高い情報に焦点を当てることができるというものです。

簡単に言えば、アテンション機構を車に例えると、クエリ・キー・バリュー（QKV）の設計はエンジンの設計に似ています。QKVはキー情報を決定するためのメカニズムです。クエリはクエリ（「何を探しているのか」）、キーはインデックス（「どのようなタグを持っているか」）、バリューはコンテンツ（「ここにどんなコンテンツがあるか」）を指します。マルチモーダルモデルの場合、モデルに入力するコンテンツは、文章、画像、音声クリップなどです。次元空間で必要なコンテンツを取得するために、これらの入力は文字、特定のピクセルサイズの小さなブロック、音声フレームなどの最小単位に分割されます。マルチモーダルモデルは、これらの最小単位に対してクエリ、キー、バリューを生成し、アテンション計算を実行します。モデルが特定の位置を処理する際、その位置のクエリを用いてすべての位置のキーを比較し、現在のニーズに最も適したタグを決定します。そして、一致度に基づいて、対応する位置からバリューを抽出し、重要度に応じて重み付けします。最終的に、独自の情報とグローバルに関連するコンテンツの両方を含む新しい表現が得られます。このようにして、各出力はコンテキストに応じて動的に「質問・取得・統合」を行い、効率的かつ正確な情報フォーカスを実現します。

このエンジンをベースに、様々なパーツが追加され、「グローバルな相互作用」と「制御可能な複雑さ」を巧みに組み合わせています。例えば、数値安定性を確保するためのスケーリングドット積、表現を豊かにするためのマルチヘッド並列処理、シーケンス順序を維持するための位置エンコーディング、効率性のバランスをとるためのスパースバリアント、学習の安定化に役立つ残差と正規化、そしてマルチモーダル性を実現するためのクロスアテンションなどです。これらのモジュール式で進歩的な設計により、Web2 AIは、様々なシーケンスタスクやマルチモーダルタスクを処理する際に、手頃な計算能力の範囲内で強力な学習能力と効率的な動作を両立できます。

なぜモジュール型Web3 AIは統一的なアテンションスケジューリングを実現できないのでしょうか？まず、アテンション機構は統一されたQuery-Key-Value空間に依存しています。ドット積を用いて動的な重みを計算するには、すべての入力特徴を同じ高次元ベクトル空間にマッピングする必要があります。独立型APIは、統一された埋め込み層を持たずに、価格、注文状況、閾値アラームなど、異なる形式と分布でデータを返すため、インタラクティブなQ/K/Vセットを形成できません。次に、マルチヘッドアテンションは、異なる情報源を同じ層で並列にアテンションし、結果を集約します。一方、独立型APIは「まずAを呼び出し、次にBを呼び出し、次にCを呼び出す」という手順を踏むことが多く、各ステップの出力は次のモジュールの入力となります。並列かつ多方向の動的な重み付け能力を欠いており、当然のことながら、すべての位置やモダリティを同時にスコアリングして統合するアテンション機構のきめ細かなスケジューリングをシミュレートすることはできません。最後に、実際のアテンション機構は、全体のコンテキストに基づいて各要素に動的に重みを割り当てます。 API モードでは、モジュールは呼び出されたときに「独立した」コンテキストのみを参照でき、モジュール間でリアルタイムに共有される中央コンテキストは存在しないため、モジュール間でグローバルな関連付けとフォーカスを実現することはできません。

したがって、エンジン性能の低い車をいくら改造しても性能の上限を上げられないのと同じように、共通のベクトル表現、並列重み付け、集約なしに、さまざまな機能を個別の API に単純にカプセル化するだけでは、Transformer のような「統合アテンションスケジューリング」機能を構築することは不可能です。

個別のモジュールパッチワークにより、機能の融合は表面的な静的スプライシングのレベルに留まります。

「特徴融合」とは、異なるモダリティの処理後に得られた特徴ベクトルを、アライメントとアテンションに基づいてさらに統合し、下流のタスク（分類、検索、生成など）で直接利用できるようにすることです。融合手法は、スプライシングや加重和といった単純なものから、双線形プーリング、テンソル分解、さらには動的ルーティング技術といった複雑なものまで様々です。より高次の手法としては、多層ネットワークにおいてアライメント、アテンション、融合を交互に行う方法や、グラフニューラルネットワーク（GNN）を介してクロスモーダルな特徴間のより柔軟なメッセージパッシングパスを確立し、深い情報インタラクションを実現する方法などがあります。

言うまでもなく、Web3 AIはまだ最も単純なスプライシング段階にあります。動的特徴量融合の前提は、高次元空間と精密なアテンションメカニズムであるためです。これらの前提条件が満たされない場合、最終段階の特徴量融合は優れた性能を達成できません。

Web2 AIは、エンドツーエンドの共同学習を採用する傾向があります。つまり、画像、テキスト、音声などのすべてのモーダル特徴を同じ高次元空間で同時に処理し、アテンション層とフュージョン層を介して下流のタスク層と連携して最適化を行います。モデルは、最適なフュージョン重みとインタラクション方法を順方向および逆方向の伝播で自動的に学習します。一方、Web3 AIは、より離散的なモジュールスプライシングアプローチを採用し、画像認識、市場クローリング、リスク評価などのさまざまなAPIを独立したエージェントにカプセル化し、それぞれが出力するラベル、値、または閾値アラームを単純に組み合わせます。包括的な決定は、メインラインロジックまたは手作業によって行われます。このアプローチには、モジュール間の統一された学習目標と勾配フローが欠けています。

Web2 AIでは、システムはアテンションメカニズムを利用して、コンテキストに応じて様々な特徴量の重要度スコアをリアルタイムで計算し、融合戦略を動的に調整します。マルチヘッドアテンションは、複数の異なる特徴インタラクションモードを同じレベルで並行して捉えることもでき、局所的な詳細とグローバルなセマンティクスを考慮します。Web3 AIでは、多くの場合、「画像×0.5 + テキスト×0.3 + 価格×0.2」などの重みを事前に固定するか、単純なif/elseルールを使用してマージするかどうかを決定するか、マージせずに各モジュールの出力をまとめて提示するだけなので、柔軟性に欠けます。

Web2 AIは、あらゆるモーダル特徴を数千次元の高次元空間にマッピングします。融合プロセスはベクトル連結だけでなく、加算や双線形プーリングといった複数の高次インタラクティブ演算を含みます。各次元は特定の潜在的意味論に対応する可能性があり、モデルは深く複雑なモーダル間の関連性を捉えることができます。一方、Web3 AIの各エージェントの出力は、多くの場合、少数のキーフィールドまたは指標のみを含み、特徴次元は極めて低いため、「画像の内容がテキストの意味と一致する理由」や「価格変動と感情トレンドの微妙なつながり」といった繊細な情報を表現することはほぼ不可能です。

Web2 AIでは、下流タスクの損失はアテンション層とフュージョン層を介してモデルの様々な部分に継続的に伝達され、どの特徴量を強化または抑制するかが自動的に調整され、閉ループ最適化が形成されます。一方、Web3 AIは、API呼び出しの結果を報告した後、手動または外部プロセスによってパラメータを評価および調整します。自動化されたエンドツーエンドのフィードバックがないため、オンラインでフュージョン戦略を反復して最適化することが困難です。

AI業界の障壁は深まっているが、問題点はまだ現れていない

Web2 AIのマルチモーダルシステムは、エンドツーエンドのトレーニングにおいて、クロスモーダルアライメント、精密なアテンション計算、高次元の特徴融合を考慮する必要があるため、多くの場合、非常に大規模なエンジニアリングプロジェクトとなります。大量で多様かつ精密にアノテーションされたクロスモーダルデータセットが必要なだけでなく、数週間、場合によっては数ヶ月のトレーニング時間で数千台のGPUも必要とします。モデルアーキテクチャの面では、さまざまな最新のネットワーク設計コンセプトと最適化技術を統合しています。エンジニアリング実装の面では、スケーラブルな分散トレーニングプラットフォーム、モニタリングシステム、モデルバージョン管理、展開パイプラインの構築も必要です。アルゴリズム開発の面では、より効率的なアテンションバリアント、より堅牢なアライメント損失、より軽量な融合戦略を継続的に研究する必要があります。このようなフルリンク、フルスタックの体系的な作業は、資金、データ、コンピューティングパワー、人材、さらには組織的なコラボレーションに対して非常に高い要件があるため、非常に強力な業界障壁を構成し、これまで少数の主要チームが習得してきたコア競争力を生み出しています。

4月に中国のAIアプリケーションをレビューし、WEB3 aiと比較した際、ある点を指摘しました。暗号通貨は障壁の強い業界でブレークスルーを達成する可能性を秘めています。これは、一部の業界が従来の市場ですでに非常に成熟しているものの、大きなペインポイントを抱えていることを意味します。成熟度が高いということは、同様のビジネスモデルに精通しているユーザーが十分にいるということであり、ペインポイントが大きいということは、ユーザーが新しいソリューションを試す意欲、つまり暗号通貨を受け入れる強い意志があるということです。どちらも不可欠です。言い換えれば、従来の市場ですでに非常に成熟しているものの、大きなペインポイントを抱えている業界でなければ、暗号通貨は根付くことができず、生存空間を持たないでしょう。ユーザーはそれを完全に理解することに非常に消極的であり、その潜在的な上限を理解していません。

WEB3 AIやPMFの旗印の下、あらゆる暗号製品は、地方から都市を包囲する戦略で発展する必要があります。コアシナリオ、つまり目標都市の出現を待つ前に、エッジポジションで小規模な試用を行い、確固たる基盤を確保する必要があります。Web3 AIの核心は分散化にあり、その進化の軌跡は、高い並列性、低い結合性、そして異種コンピューティングパワーの互換性に反映されています。** これにより、Web3 AIはエッジコンピューティングなどのシナリオにおいてより有利になり、LoRAの微調整、行動アライメント後の学習タスク、クラウドソーシングによるデータ学習とアノテーション、小規模な基本モデル学習、エッジデバイス連携学習など、軽量構造、容易な並列化、インセンティブ付与可能なタスクに適しています。これらのシナリオの製品アーキテクチャは軽量であり、ロードマップは柔軟に反復可能です。しかし、これは今がチャンスであることを意味するわけではありません。WEB2 AIの障壁が形成され始めたばかりだからです。Deepseekの登場は、マルチモーダルな複合タスクAIの進歩を刺激しました。これは、大手企業同士の競争であり、WEB2 AIの配当が出現する初期段階です。WEB2 AIの配当が消滅した時、残されたペインポイントこそが、DeFiの誕生のようにWEB3 AIが参入するチャンスになると考えています。その時が来るまでは、WEB3 AIが自ら作り出したペインポイントが市場に浸透し続けるでしょう。「地方から都市を囲む」プロトコルを慎重に見極め、端から参入していくのか、まずは実力が弱く、市場定着のシナリオが少ない地方（あるいは小規模市場、小規模シーン）に足場を築き、徐々にリソースと経験を積み重ねていくのか、点と面を組み合わせ、循環的にプロモーションを行い、十分に小規模な適用シナリオの中で製品を継続的にイテレーション・アップデートしていくのかを見極める必要があります。これができなければ、PMFを基盤として10億ドルの時価総額を達成することは難しく、そのようなプロジェクトは懸念事項に挙がらないでしょう。 WEB2 AIが長期戦に耐え、柔軟性と機動性を備えているかどうかは、WEB2 AIの潜在的な障壁が動的に変化し、それに伴う潜在的な問題点も進化しているかどうかにかかっています。WEB3 AIプロトコルは、さまざまなシナリオに適応し、農村地域間を迅速に移動したり、目標都市に最速で接近したりできるほどの柔軟性を備えている必要があるかどうかに注意する必要があります。プロトコル自体がインフラ集約型であり、ネットワークアーキテクチャが巨大である場合、淘汰される可能性が非常に高くなります。

Movemakerについて

Movemakerは、Aptos Foundationによって認可され、AnkaaとBlockBoosterが共同で立ち上げた初の公式コミュニティ組織であり、Aptos中国エコシステムの構築と発展の促進に重点を置いています。中国地域におけるAptosの公式代表として、Movemakerは開発者、ユーザー、資本、そして多くのエコシステムパートナーを結びつけることで、多様性に富み、オープンで繁栄するAptosエコシステムの構築に尽力しています。

免責事項:

この記事/ブログは情報提供のみを目的としており、著者の個人的な意見を表したものであり、必ずしもMovemakerの立場を代表するものではありません。この記事は、(i)投資助言または投資推奨、(ii)デジタル資産の売買または保有の申し出または勧誘、(iii)財務、会計、法律、または税務に関するアドバイスを提供することを意図したものではありません。ステーブルコインやNFTを含むデジタル資産の保有は非常にリスクが高く、価格が変動して価値がなくなる可能性があります。ご自身の財務状況に基づいて、デジタル資産の取引または保有が適切かどうかを慎重に検討する必要があります。具体的な状況についてご質問がある場合は、法律、税務、または投資アドバイザーにご相談ください。この記事で提供される情報（市場データおよび統計情報を含む）は、一般的な情報提供のみを目的としています。これらのデータおよびチャートの作成には合理的な注意が払われていますが、そこに表明された事実上の誤りまたは省略については一切責任を負いません。

投資する

業界

Aptos

テクノロジー

Odaily公式コミュニティへの参加を歓迎します

購読グループ