世界モデルは予測から計画へ、HWMと長期間制御の課題

特邀专栏作者

2026-04-17 10:20

この記事は約2700文字で、全文を読むには約4分かかります

4月3日、NYUとMeta FAIRチームは論文「Hierarchical Planning with Latent World Models (HWM)」を発表しました。原文アドレス：(https://arxiv.org/abs/2604.03208) この論文は、よりリアルな未来画像の生成に焦点を当てるのではなく、世界モデルが長年抱えてきた実行上の課題に目を向けています。タスクチェーンが長くなると、予測誤差が蓄積し続け、アクション探索空間も急速に拡大します。

AI要約

展開

核心的な視点：世界モデルの研究重点は、内部予測能力の向上から、予測、計画、検証を統合した実行可能なシステム能力の構築へと移行しており、長期間・多段階タスクにおける誤差蓄積と計画の複雑さの課題を解決しようとしています。
重要な要素：
1. V-JEPA 2は、100万時間を超えるビデオ事前学習を通じて、世界モデルの表現学習と基礎予測における潜在能力を示し、その後の計画の基盤を提供しました。
2. HWMは、階層的計画構造を導入することで、長いタスクを高レベルの段階的経路と低レベルの局所的なアクションに分解し、実際の把持タスクにおいて成功率を0%から70%に向上させました。
3. 階層的計画は、タスクの成功率を向上させただけでなく、一部のシナリオでは計画の計算コストを約4分の1に削減しました。
4. WAVモデルは、モデル自身の予測歪みの識別と修正に焦点を当てており、システム検証能力の発展方向を代表しています。
5. 研究トレンドは、世界モデルが単なる未来予測から、予測、計画、検証を統合したシステム能力へと進化し、長い連鎖・多段階タスクの課題に対処しようとしていることを示しています。

はじめに

世界モデルの過去1年間の研究焦点は、当初は表現学習と未来予測に集中していました。モデルはまず世界を理解し、その後内部で未来の状態を推論します。この路線はすでに多くの代表的な成果を生み出しています。V-JEPA 2（Video Joint Embedding Predictive Architecture 2——Metaが2025年に発表したビデオ世界モデルのセット）は、100万時間以上のインターネット動画で事前学習を行い、少量のロボットインタラクションデータと組み合わせることで、世界モデルが理解、予測、ゼロショットロボット計画において持つ可能性を示しました。

しかし、モデルが予測できるからといって、長いタスクを処理できるわけではありません。多段階制御に直面すると、システムは通常2つのプレッシャーに遭遇します。1つは、予測誤差が長いロールアウト（連続多段階推論）の中で継続的に蓄積され、パス全体が目標からますます逸脱しやすくなることです。もう1つは、アクションの探索空間がホライズン（計画視野）の拡大とともに急速に拡大し、計画コストが継続的に上昇することです。HWMは世界モデルの基盤となる学習路線を書き換えるのではなく、既存のアクション条件付き世界モデルの上に階層的計画構造を追加し、システムがまず段階的なパスを組織化し、その後局所的なアクションを処理できるようにしました。

技術的に見ると、V-JEPA 2（https://ai.meta.com/research/vjepa/）は世界表現と基礎予測に、HWMは長時間計画に、WAV（World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry、https://arxiv.org/abs/2604.01985）はモデル自身の予測歪みの識別と修正により重点を置いています。これら3つの路線は徐々に収束しつつあります。世界モデル研究の重点は、単なる未来予測から、予測能力を実行可能で修正可能、検証可能なシステム能力に転換する方法へと移行しています。

一、長時間制御がなぜ依然として世界モデルのボトルネックなのか

長時間制御の難しさは、ロボットタスクに置き換えるとより明確になります。マニピュレータ操作を例にとると、カップをつかんで引き出しに入れるというのは単一の動作ではなく、一連の連続したステップです。システムは物体に接近し、姿勢を調整し、把持を完了し、目標位置に移動し、引き出しと配置を処理しなければなりません。チェーンが長くなると、2つの問題が同時に発生します。1つは予測誤差がロールアウトに沿って継続的に蓄積すること、もう1つはアクション探索空間が急速に拡大することです。

システムに欠けているのは、通常、局所的な予測能力ではなく、遠い目標を段階的なパスに組織化する能力です。多くの動作は局所的には目標から逸脱しているように見えますが、実際には目標を達成するために必要な中間ステップです。例えば、把持する前に腕を上げたり、引き出しを開ける前に少し後退して角度を調整したりすることです。

デモンストレーションタスクでは、世界モデルはすでに一貫した予測を提供できます。しかし、実際の制御シナリオに入ると、性能は低下し始め、問題も浮上します。プレッシャーは表現そのものだけでなく、まだ十分に成熟していない計画層にも由来します。

二、HWMは計画プロセスをどのように再構築するか

HWMは、元々1層で行われていた計画プロセスを2層に分割します。上位層はより長い時間スケールでの段階的な方向性を担当し、下位層はより短い時間スケールでの局所的な実行を担当します。モデルは単一のリズムで計画するのではなく、2つの異なる時間リズムで同時に計画します。

単層手法で長いタスクを処理する場合、通常、基底のアクション空間で直接アクションチェーン全体を探索する必要があります。タスクが長くなるほど、探索コストは高くなり、予測誤差も多段階ロールアウトに沿って拡散しやすくなります。HWMがプロセスを分割した後、上位層はより長い時間スケールでのルート選択のみを処理し、下位層は現在のこのセグメントのアクション完了のみを処理するため、長いタスク全体が複数の短いタスクに分割され、計画の複雑さが低下します。

ここにはもう1つの重要な設計があります。上位層のアクションは、単に2つの状態間の差分を記録するのではなく、エンコーダを使用して、下位層の一連のアクションをより高次のアクション表現に圧縮します。長いタスクにとって重要なのは、起点と終点の間の差分だけでなく、中間ステップがどのように組織化されているかです。上位層が変位差分のみを見ていると、このアクションチェーン内のパス情報を失いやすくなります。

HWMが体現するのは、階層的なタスク組織化の方法です。多段階の作業に直面したとき、システムはすべてのアクションを一度に展開するのではなく、まず大まかな段階的なパスを形成し、その後セグメントごとに実行と修正を行います。この階層関係が世界モデルに組み込まれると、予測能力はより安定して計画能力に変換され始めます。

三、0%から70%へ、実験結果は何を示しているか

論文で設定された実世界の把持・配置タスクでは、システムは最終目標条件のみを与えられ、人手で分割された中間目標は提供されません。この条件下で、HWMの成功率は70%に達し、単層世界モデルの成功率は0%でした。元々ほとんど完了できなかった長いタスクが、階層的計画を導入した後、高い確率で実現可能な結果に変わりました。

論文では、物体を押す操作や迷路ナビゲーションなどのシミュレーションタスクもテストされています。結果は、階層的計画が成功率を向上させるだけでなく、計画段階の計算コストも削減することを示しています。一部の環境では、計画段階の計算コストは最大で約4分の1に削減され、同時に同等またはそれ以上の成功率が維持されました。

四、V-JEPAからHWM、そしてWAVへ

V-JEPA 2は世界表現という路線を代表しています。V-JEPA 2は100万時間以上のインターネット動画で事前学習を行い、62時間未満のロボット動画でポストトレーニング（事前学習後の対象別トレーニング）を組み合わせることで、理解、予測、物理世界の計画に使用可能な潜在アクション条件付き世界モデル（抽象表現空間内で、アクション情報を組み合わせて予測を行う世界モデル）を獲得しました。それは、モデルが大規模な観察を通じて世界表現を獲得し、その表現をロボット計画に転移できることを示しています。

HWMはその次のステップに位置します。モデルはすでに世界表現と基礎的な予測能力を持っていますが、多段階制御に入ると、誤差蓄積と探索空間拡大の問題が爆発的に発生します。HWMは基盤となる表現学習路線を変更せず、既存のアクション条件付き世界モデルの上に多時間スケールの計画構造を追加します。それが扱う問題は、モデルが遠い目標をどのように一連の中間ステップに組織化し、セグメントごとに推進するかです。

WAVはさらに焦点を検証能力に置いています。世界モデルが方策最適化やデプロイメントシナリオに入るためには、予測できるだけでは不十分で、どの領域で歪みが生じやすいかを発見し、それに基づいて校正できる必要があります。それは、モデルがどのように自己をチェックするかに注目しています。

V-JEPAは世界表現に、HWMはタスク計画に、WAVは結果検証に重点を置いています。三者は注目点が異なりますが、大まかな方向性は一致しています。世界モデルの次の段階は、もはや内部予測だけでなく、予測、計画、検証が徐々に一連のシステム能力として結びついていくことです。

五、内部予測から実行可能なシステムへ

過去の多くの世界モデルの研究は、未来状態予測の連続性を向上させるか、内部世界表現の安定性を向上させることに近いものでした。しかし、現在の研究重点はすでに変化し始めており、システムは環境に対する判断を形成するだけでなく、その判断をアクションに変換し、結果が出た後も次のステップを修正し続ける必要があります。実際のデプロイメントに近づくためには、長時間タスクにおいて誤差伝播を制御し、探索範囲を圧縮し、推論コストを削減する必要があります。

この種の変化はAIエージェントにも影響を与えます。多くのエージェントシステムはすでに短いリンクタスク、例えばツールの呼び出し、ファイルの読み取り、いくつかのステップの命令の実行を完了できます。しかし、タスクが長いリンク、多段階、途中での再計画が必要になると、性能は低下します。これはロボット制御における難点と本質的な違いはなく、どちらも高次のパス組織化能力が不足しているために、局所的な実行と全体目標との間に断絶が生じているのです。

HWMが提供する階層的な考え方、つまり上位層がパスと段階的目標を担当し、下位層が局所的なアクションとフィードバック処理を担当し、さらに結果検証を重ねるという階層構造は、今後より多くのシステムに継続的に出現するでしょう。世界モデルの次の段階の重点も、もはや単なる未来予測ではなく、予測、実行、修正を実行可能なパスに組織化することです。

Web 4.0

Odaily公式コミュニティへの参加を歓迎します