World Models: From Prediction to Planning, HWM and the Challenge of Long-Term Control

特邀专栏作者

2026-04-17 10:20

Bài viết này có khoảng 2700 từ, đọc toàn bộ bài viết mất khoảng 4 phút

Ngày 3 tháng 4, nhóm nghiên cứu NYU và Meta FAIR đã công bố bài báo "Hierarchical Planning with Latent World Models (HWM)". Địa chỉ bài báo gốc: (https://arxiv.org/abs/2604.03208) Bài báo này không tiếp tục tập trung vào việc tạo ra những hình ảnh tương lai chân thực hơn, mà chuyển hướng sang một vấn đề thực thi lâu dài tồn tại trong các mô hình thế giới. Khi chuỗi nhiệm vụ được kéo dài, lỗi dự đoán sẽ tích lũy liên tục và không gian tìm kiếm hành động cũng sẽ mở rộng nhanh chóng.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Trọng tâm nghiên cứu về mô hình thế giới đang chuyển từ việc nâng cao khả năng dự đoán nội tại sang xây dựng khả năng hệ thống có thể thực thi tích hợp dự đoán, lập kế hoạch và xác minh, nhằm giải quyết các vấn đề tích lũy sai số và độ phức tạp lập kế hoạch trong các nhiệm vụ dài hạn, đa giai đoạn.
Yếu tố then chốt:
1. V-JEPA 2 thông qua quá trình đào tạo trước trên hơn một triệu giờ video, đã cho thấy tiềm năng của mô hình thế giới trong việc học biểu diễn và dự đoán cơ bản, cung cấp nền tảng cho việc lập kế hoạch tiếp theo.
2. HWM bằng cách giới thiệu cấu trúc lập kế hoạch phân cấp, phân tách nhiệm vụ dài thành đường dẫn giai đoạn cấp cao và hành động cục bộ cấp thấp, đã nâng tỷ lệ thành công trong nhiệm vụ gắp thực tế từ 0% lên 70%.
3. Lập kế hoạch phân cấp không chỉ cải thiện tỷ lệ thành công của nhiệm vụ mà còn giảm chi phí tính toán lập kế hoạch trong một số tình huống xuống khoảng một phần tư so với ban đầu.
4. Mô hình WAV tập trung vào việc nhận dạng và sửa chữa sự sai lệch dự đoán của chính mô hình, đại diện cho hướng phát triển của khả năng xác minh hệ thống.
5. Xu hướng nghiên cứu cho thấy mô hình thế giới đang tiến hóa từ việc chỉ đơn thuần dự đoán tương lai sang khả năng hệ thống tích hợp dự đoán, lập kế hoạch và xác minh, để đối mặt với thách thức của các nhiệm vụ đa giai đoạn, chuỗi dài.

Lời mở đầu

Trọng tâm nghiên cứu về mô hình thế giới trong năm qua ban đầu tập trung vào học biểu diễn và dự đoán tương lai. Mô hình trước tiên hiểu thế giới, sau đó suy diễn trạng thái tương lai bên trong. Con đường này đã tạo ra một loạt kết quả đại diện. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2—một mô hình thế giới video do Meta phát hành năm 2025) sử dụng hơn 1 triệu giờ video internet để huấn luyện trước, sau đó kết hợp với một lượng nhỏ dữ liệu tương tác robot, cho thấy tiềm năng của mô hình thế giới trong việc hiểu, dự đoán và lập kế hoạch robot zero-shot.

Tuy nhiên, việc mô hình có thể dự đoán không có nghĩa là nó có thể xử lý nhiệm vụ dài. Khi đối mặt với điều khiển đa giai đoạn, hệ thống thường gặp hai áp lực. Một là lỗi dự đoán sẽ tích lũy liên tục trong rollout dài (suy diễn nhiều bước liên tiếp), khiến toàn bộ đường đi ngày càng dễ lệch khỏi mục tiêu. Áp lực khác là không gian tìm kiếm hành động sẽ mở rộng nhanh chóng khi horizon (tầm nhìn lập kế hoạch) tăng, dẫn đến chi phí lập kế hoạch liên tục tăng. HWM không viết lại lộ trình học cơ bản của mô hình thế giới, mà thêm cấu trúc lập kế hoạch phân tầng lên trên mô hình thế giới có điều kiện hành động hiện có, để hệ thống trước tiên tổ chức đường đi giai đoạn, sau đó xử lý hành động cục bộ.

Về mặt kỹ thuật, V-JEPA 2 (https://ai.meta.com/research/vjepa/) thiên về biểu diễn thế giới và dự đoán cơ bản, HWM thiên về lập kế hoạch dài hạn, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) thiên về việc mô hình nhận diện và sửa chữa sự biến dạng dự đoán của chính nó. Ba hướng này đang dần hội tụ. Trọng tâm nghiên cứu mô hình thế giới đã chuyển từ việc chỉ đơn thuần dự đoán tương lai sang cách chuyển đổi khả năng dự đoán thành năng lực hệ thống có thể thực thi, có thể sửa chữa, có thể xác minh.

1. Tại sao điều khiển dài hạn vẫn là nút thắt của mô hình thế giới

Khó khăn của điều khiển dài hạn sẽ dễ nhìn thấy hơn khi đặt vào nhiệm vụ robot. Lấy thao tác cánh tay robot làm ví dụ, nhặt một cái cốc và đặt nó vào ngăn kéo không phải là một hành động đơn lẻ, mà là một chuỗi các bước liên tiếp. Hệ thống cần tiếp cận vật thể, điều chỉnh tư thế, hoàn thành việc cầm nắm, di chuyển đến vị trí mục tiêu, sau đó xử lý ngăn kéo và đặt. Khi chuỗi dài ra, hai vấn đề sẽ xuất hiện đồng thời. Một là lỗi dự đoán sẽ tích lũy liên tục dọc theo rollout, vấn đề khác là không gian tìm kiếm hành động sẽ mở rộng nhanh chóng.

Điều hệ thống thường thiếu không phải là khả năng dự đoán cục bộ, mà là khả năng tổ chức mục tiêu xa thành đường đi giai đoạn. Nhiều hành động khi nhìn cục bộ có vẻ như đang lệch khỏi mục tiêu, nhưng thực tế lại là các bước trung gian cần thiết để hoàn thành mục tiêu. Ví dụ, nâng cao cánh tay trước khi cầm nắm, lùi lại một chút và điều chỉnh góc độ trước khi mở ngăn kéo.

Trong các nhiệm vụ trình diễn, mô hình thế giới đã có thể đưa ra dự đoán mạch lạc. Nhưng khi bước vào kịch bản điều khiển thực tế, hiệu suất bắt đầu giảm và vấn đề cũng xuất hiện. Áp lực không chỉ đến từ bản thân biểu diễn, mà còn từ việc tầng lập kế hoạch chưa đủ trưởng thành.

2. HWM tái cấu trúc quá trình lập kế hoạch như thế nào

HWM chia quá trình lập kế hoạch vốn được hoàn thành trong một tầng thành hai tầng. Tầng trên chịu trách nhiệm về hướng giai đoạn trên thang thời gian dài hơn, tầng dưới chịu trách nhiệm về việc thực thi cục bộ trên thang thời gian ngắn hơn. Mô hình không chỉ lập kế hoạch theo một nhịp độ, mà lập kế hoạch đồng thời theo hai nhịp thời gian khác nhau.

Phương pháp một tầng khi xử lý nhiệm vụ dài thường cần tìm kiếm trực tiếp toàn bộ chuỗi hành động trong không gian hành động cơ sở. Nhiệm vụ càng dài, chi phí tìm kiếm càng cao và lỗi dự đoán cũng càng dễ lan truyền liên tục dọc theo rollout nhiều bước. Sau khi HWM tách quá trình, tầng cao chỉ xử lý việc lựa chọn tuyến đường trên thang thời gian dài hơn, tầng thấp chỉ xử lý việc hoàn thành đoạn hành động hiện tại, toàn bộ nhiệm vụ dài được chia thành nhiều nhiệm vụ ngắn hơn, độ phức tạp lập kế hoạch từ đó giảm xuống.

Còn một thiết kế then chốt ở đây, hành động tầng cao không chỉ đơn giản ghi lại sự chênh lệch giữa hai trạng thái, mà sử dụng một bộ mã hóa để nén một đoạn hành động tầng thấp thành biểu diễn hành động ở tầng cao hơn. Đối với nhiệm vụ dài, điểm mấu chốt không chỉ nằm ở sự chênh lệch giữa điểm bắt đầu và điểm kết thúc, mà còn ở cách các bước trung gian được tổ chức. Nếu tầng cao chỉ nhìn vào chênh lệch dịch chuyển, dễ mất thông tin đường đi trong chuỗi hành động này.

HWM thể hiện một cách tổ chức nhiệm vụ phân tầng. Khi đối mặt với một công việc đa giai đoạn, hệ thống không còn triển khai tất cả hành động cùng một lúc, mà trước tiên hình thành đường đi giai đoạn thô hơn, sau đó thực thi và sửa chữa từng đoạn. Mối quan hệ phân cấp này, sau khi đi vào mô hình thế giới, khả năng dự đoán sẽ bắt đầu chuyển đổi ổn định hơn thành khả năng lập kế hoạch.

3. Từ 0% đến 70%, kết quả thí nghiệm nói lên điều gì

Trong nhiệm vụ cầm nắm và đặt vật trong thế giới thực được thiết lập trong bài báo, hệ thống chỉ nhận được điều kiện mục tiêu cuối cùng, không cung cấp mục tiêu trung gian được chia nhỏ thủ công. Trong điều kiện này, tỷ lệ thành công của HWM đạt 70%, trong khi tỷ lệ thành công của mô hình thế giới một tầng là 0%. Nhiệm vụ dài vốn gần như không thể hoàn thành, sau khi đưa vào lập kế hoạch phân tầng, đã trở thành kết quả có thể đạt được với xác suất cao.

Bài báo cũng kiểm tra các nhiệm vụ mô phỏng như thao tác đẩy vật thể và dẫn đường trong mê cung. Kết quả cho thấy, lập kế hoạch phân tầng không chỉ cải thiện tỷ lệ thành công mà còn giảm chi phí tính toán trong giai đoạn lập kế hoạch. Trong một số môi trường, chi phí tính toán trong giai đoạn lập kế hoạch có thể giảm nhiều nhất xuống còn khoảng một phần tư so với ban đầu, đồng thời duy trì tỷ lệ thành công cao hơn hoặc tương đương.

4. Từ V-JEPA đến HWM rồi đến WAV

V-JEPA 2 đại diện cho con đường biểu diễn thế giới. V-JEPA 2 sử dụng hơn 1 triệu giờ video internet để huấn luyện trước, sau đó kết hợp với chưa đến 62 giờ video robot để post-training (huấn luyện có mục tiêu sau huấn luyện trước), thu được latent action-conditioned world model (mô hình thế giới trong không gian biểu diễn trừu tượng, kết hợp thông tin hành động để dự đoán) có thể sử dụng để hiểu, dự đoán và lập kế hoạch thế giới vật lý. Nó cho thấy mô hình có thể thu được biểu diễn thế giới thông qua quan sát quy mô lớn và chuyển giao biểu diễn này vào lập kế hoạch robot.

HWM ở bước tiếp theo. Mô hình đã sở hữu khả năng biểu diễn thế giới và dự đoán cơ bản, nhưng ngay khi bước vào điều khiển đa giai đoạn, vấn đề tích lũy lỗi và mở rộng không gian tìm kiếm sẽ bùng phát. HWM không thay đổi lộ trình học biểu diễn cơ sở, mà thêm cấu trúc lập kế hoạch đa thang thời gian lên trên mô hình thế giới có điều kiện hành động hiện có. Vấn đề nó xử lý là làm thế nào để mô hình tổ chức mục tiêu xa thành một nhóm các bước trung gian, sau đó tiến từng đoạn.

WAV thì tiếp tục đặt trọng tâm vào khả năng xác minh. Mô hình thế giới muốn bước vào kịch bản tối ưu hóa và triển khai chiến lược, không thể chỉ biết dự đoán, mà còn phải có khả năng phát hiện mình dễ bị biến dạng ở những khu vực nào và hiệu chỉnh dựa trên đó. Nó quan tâm đến việc mô hình kiểm tra chính mình như thế nào.

V-JEPA thiên về biểu diễn thế giới, HWM thiên về lập kế hoạch nhiệm vụ, WAV thiên về xác minh kết quả. Mặc dù ba hướng có điểm tập trung khác nhau, nhưng đại phương hướng là nhất quán. Giai đoạn tiếp theo của mô hình thế giới không chỉ còn là dự đoán nội bộ, mà là dự đoán, lập kế hoạch, xác minh dần kết nối thành một bộ năng lực hệ thống.

5. Từ dự đoán nội bộ đến hệ thống có thể thực thi

Nhiều công trình về mô hình thế giới trong quá khứ gần giống với việc nâng cao tính liên tục của dự đoán trạng thái tương lai, hoặc nâng cao tính ổn định của biểu diễn thế giới nội bộ. Nhưng trọng tâm nghiên cứu hiện tại đã bắt đầu thay đổi, hệ thống vừa phải hình thành phán đoán về môi trường, cũng phải chuyển phán đoán thành hành động, và tiếp tục sửa chữa bước tiếp theo sau khi kết quả xuất hiện. Muốn tiến gần hơn đến triển khai thực tế, cần kiểm soát sự lan truyền lỗi trong nhiệm vụ dài hạn, nén phạm vi tìm kiếm, giảm chi phí suy luận.

Loại thay đổi này cũng sẽ ảnh hưởng đến AI agent. Nhiều hệ thống agent đã có thể hoàn thành nhiệm vụ chuỗi ngắn, chẳng hạn như gọi công cụ, đọc tệp, thực thi một số bước lệnh. Nhưng một khi nhiệm vụ trở thành chuỗi dài, đa giai đoạn, cần lập kế hoạch lại giữa chừng, hiệu suất sẽ giảm. Điều này không khác biệt về bản chất so với khó khăn trong điều khiển robot, đều là do năng lực tổ chức đường đi ở tầng cao không đủ, dẫn đến sự tách rời giữa thực thi cục bộ và mục tiêu tổng thể.

Tư duy phân tầng mà HWM cung cấp, tầng cao chịu trách nhiệm về đường đi và mục tiêu giai đoạn, tầng thấp chịu trách nhiệm về hành động cục bộ và xử lý phản hồi, cộng thêm xác minh kết quả, loại cấu trúc phân tầng này sẽ tiếp tục xuất hiện trong nhiều hệ thống hơn trong tương lai. Trọng tâm của giai đoạn tiếp theo của mô hình thế giới cũng không chỉ còn là dự đoán tương lai, mà là tổ chức dự đoán, thực thi và sửa chữa thành một đường đi có thể vận hành.

Web 4.0

Chào mừng tham gia cộng đồng chính thức của Odaily