World Models: From Prediction to Planning, HWM and the Challenge of Long-Term Control
- มุมมองหลัก: จุดสนใจของการวิจัย World Model กำลังเปลี่ยนจากการเพิ่มความสามารถในการพยากรณ์ภายใน ไปสู่การสร้างความสามารถของระบบปฏิบัติการที่บูรณาการการพยากรณ์ การวางแผน และการตรวจสอบเข้าด้วยกัน เพื่อแก้ไขปัญหาความซับซ้อนของการสะสมข้อผิดพลาดและการวางแผนในงานระยะยาวและหลายขั้นตอน
- องค์ประกอบสำคัญ:
- V-JEPA 2 แสดงให้เห็นถึงศักยภาพของ World Model ในการเรียนรู้การแสดงแทนและการพยากรณ์พื้นฐานผ่านการฝึกก่อนด้วยวิดีโอกว่า 1 ล้านชั่วโมง ซึ่งเป็นพื้นฐานสำหรับการวางแผนในภายหลัง
- HWM นำโครงสร้างการวางแผนแบบลำดับชั้นมาใช้ โดยแยกงานระยะยาวออกเป็นเส้นทางขั้นสูงและขั้นต่ำของการกระทำเฉพาะที่ ซึ่งเพิ่มอัตราความสำเร็จในการทำงานจับจริงจาก 0% เป็น 70%
- การวางแผนแบบลำดับชั้นไม่เพียงแต่เพิ่มอัตราความสำเร็จของงาน แต่ยังลดต้นทุนการคำนวณการวางแผนในบางสถานการณ์ลงเหลือประมาณหนึ่งในสี่ของเดิม
- โมเดล WAV มุ่งเน้นไปที่ความสามารถของโมเดลในการระบุและแก้ไขความบิดเบือนของการพยากรณ์ของตัวเอง ซึ่งแสดงถึงทิศทางการพัฒนาของความสามารถในการตรวจสอบระบบ
- แนวโน้มการวิจัยบ่งชี้ว่า World Model กำลังพัฒนาไปจากเพียงการพยากรณ์อนาคต ไปสู่ความสามารถของระบบที่บูรณาการการพยากรณ์ การวางแผน และการตรวจสอบ เพื่อรับมือกับความท้าทายของงานที่มีห่วงโซ่ยาวและหลายขั้นตอน
บทนำ
ในช่วงปีที่ผ่านมา จุดสนใจหลักของการวิจัยโมเดลโลก (World Model) ในช่วงแรกมุ่งเน้นไปที่การเรียนรู้การแทนค่า (Representation Learning) และการทำนายอนาคต โมเดลจะเข้าใจโลกก่อน จากนั้นจึงคาดการณ์สถานะในอนาคตภายในตัวเอง เส้นทางนี้ได้สร้างผลงานที่เป็นตัวแทนจำนวนหนึ่ง V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — โมเดลโลกวิดีโอชุดหนึ่งที่ Meta เผยแพร่ในปี 2025) ใช้วิดีโออินเทอร์เน็ตมากกว่า 1 ล้านชั่วโมงในการฝึกล่วงหน้า (Pre-training) จากนั้นผสมผสานกับข้อมูลการโต้ตอบของหุ่นยนต์จำนวนเล็กน้อย แสดงให้เห็นถึงศักยภาพของโมเดลโลกในการทำความเข้าใจ การทำนาย และการวางแผนหุ่นยนต์แบบ Zero-shot
แต่การที่โมเดลสามารถทำนายได้ ไม่ได้หมายความว่าโมเดลจะสามารถจัดการงานระยะยาวได้ เมื่อเผชิญกับการควบคุมหลายขั้นตอน ระบบมักจะพบกับแรงกดดันสองประการ ประการหนึ่งคือข้อผิดพลาดในการทำนายจะสะสมอย่างต่อเนื่องในระหว่างการ rollout (การคาดการณ์หลายขั้นตอนติดต่อกัน) เป็นเวลานาน ส่งผลให้เส้นทางทั้งหมดเบี่ยงเบนจากเป้าหมายได้ง่ายขึ้นเรื่อยๆ อีกประการหนึ่งคือพื้นที่ค้นหาการกระทำ (Action Search Space) จะขยายตัวอย่างรวดเร็วเมื่อ horizon (ระยะการวางแผน) เพิ่มขึ้น ส่งผลให้ต้นทุนการวางแผนเพิ่มขึ้นอย่างต่อเนื่อง HWM ไม่ได้เขียนเส้นทางการเรียนรู้พื้นฐานของโมเดลโลกใหม่ แต่เพิ่มโครงสร้างการวางแผนแบบลำดับชั้น (Hierarchical Planning Structure) ลงบนโมเดลโลกที่มีเงื่อนไขการกระทำ (Action-Conditioned World Model) ที่มีอยู่แล้ว ทำให้ระบบจัดระเบียบเส้นทางขั้นตอนก่อน จากนั้นจึงจัดการกับการกระทำเฉพาะส่วน
จากมุมมองทางเทคนิค V-JEPA 2 (https://ai.meta.com/research/vjepa/) มีแนวโน้มที่จะเน้นไปที่การแทนค่าโลกและการทำนายพื้นฐานมากกว่า ในขณะที่ HWM มีแนวโน้มที่จะเน้นไปที่การวางแผนระยะยาวมากกว่า และ WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) มีแนวโน้มที่จะเน้นไปที่การระบุและการแก้ไขความบิดเบือนของการทำนายของโมเดลเองมากกว่า ทั้งสามเส้นทางกำลังค่อยๆ บรรจบกัน จุดเน้นของการวิจัยโมเดลโลกได้เปลี่ยนจากการทำนายอนาคตเพียงอย่างเดียว ไปสู่วิธีการเปลี่ยนความสามารถในการทำนายให้เป็นความสามารถของระบบที่สามารถดำเนินการได้ แก้ไขได้ และตรวจสอบได้
1. ทำไมการควบคุมระยะยาวยังคงเป็นคอขวดของโมเดลโลก
ความยากของการควบคุมระยะยาวจะเห็นได้ชัดเจนยิ่งขึ้นเมื่อนำไปใช้ในงานหุ่นยนต์ ตัวอย่างเช่น การทำงานของแขนกล หยิบถ้วยแล้ววางลงในลิ้นชัก นี่ไม่ใช่การกระทำเดียว แต่เป็นลำดับขั้นตอนต่อเนื่อง ระบบต้องเข้าใกล้วัตถุ ปรับท่าทาง ดำเนินการจับ ย้ายไปยังตำแหน่งเป้าหมาย จากนั้นจัดการกับลิ้นชักและการวาง เมื่อห่วงโซ่ยาวขึ้น ปัญหาสองประการจะปรากฏขึ้นพร้อมกัน หนึ่งคือข้อผิดพลาดในการทำนายจะสะสมอย่างต่อเนื่องตามการ rollout และอีกประการคือพื้นที่ค้นหาการกระทำจะขยายตัวอย่างรวดเร็ว

สิ่งที่ระบบมักขาดหายไป มักไม่ใช่ความสามารถในการทำนายเฉพาะส่วน แต่เป็นความสามารถในการจัดระเบียบเป้าหมายระยะไกลให้เป็นเส้นทางขั้นตอน การกระทำหลายอย่างเมื่อมองในระดับเฉพาะส่วนดูเหมือนจะเบี่ยงเบนจากเป้าหมาย แต่ในความเป็นจริงแล้วเป็นขั้นตอนกลางที่จำเป็นเพื่อให้บรรลุเป้าหมาย ตัวอย่างเช่น การยกแขนขึ้นก่อนจับ การถอยหลังเล็กน้อยและปรับมุมก่อนเปิดลิ้นชัก
ในงานสาธิต โมเดลโลกสามารถให้การทำนายที่ต่อเนื่องได้แล้ว แต่เมื่อเข้าสู่สถานการณ์ควบคุมจริง ประสิทธิภาพเริ่มลดลง และปัญหาก็ปรากฏขึ้น แรงกดดันไม่ได้มาจากการแทนค่า (Representation) เองเท่านั้น แต่ยังมาจากชั้นการวางแผน (Planning Layer) ที่ยังไม่成熟เพียงพอ
2. HWM ปรับโครงสร้างกระบวนการวางแผนอย่างไร
HWM แบ่งกระบวนการวางแผนที่เดิมทำเสร็จในชั้นเดียวออกเป็นสองชั้น ชั้นบนรับผิดชอบทิศทางขั้นตอนในระดับเวลาที่ค่อนข้างยาว ชั้นล่างรับผิดชอบการดำเนินการเฉพาะส่วนในระดับเวลาที่สั้นกว่า โมเดลไม่ได้วางแผนตามจังหวะเดียว แต่วางแผนตามจังหวะเวลาที่แตกต่างกันสองจังหวะพร้อมกัน
วิธีการแบบชั้นเดียวเมื่อจัดการงานระยะยาว มักต้องค้นหาทั้งห่วงโซ่การกระทำโดยตรงในพื้นที่การกระทำระดับล่าง ยิ่งงานยาวนาน ต้นทุนการค้นหายิ่งสูง และข้อผิดพลาดในการทำนายก็ยิ่งแพร่กระจายอย่างต่อเนื่องตามการ rollout หลายขั้นตอนได้ง่ายขึ้น หลังจากที่ HWM แบ่งกระบวนการออก ชั้นสูงจัดการเฉพาะการเลือกเส้นทางในระดับเวลาที่ค่อนข้างยาวเท่านั้น ชั้นต่ำจัดการเฉพาะการดำเนินการส่วนปัจจุบันเท่านั้น งานระยะยาวทั้งหมดถูกแบ่งออกเป็นงานสั้นหลายส่วน ความซับซ้อนของการวางแผนจึงลดลง
นอกจากนี้ยังมีการออกแบบที่สำคัญอีกอย่างหนึ่ง การกระทำระดับสูงไม่ได้บันทึกเพียงความแตกต่างระหว่างสองสถานะอย่างง่าย แต่ใช้ตัวเข้ารหัส (Encoder) เพื่อบีบอัดลำดับการกระทำระดับต่ำให้เป็นการแสดงการกระทำระดับที่สูงขึ้น สำหรับงานระยะยาว สิ่งสำคัญไม่เพียงอยู่ที่ความแตกต่างระหว่างจุดเริ่มต้นและจุดสิ้นสุดเท่านั้น แต่ยังอยู่ที่ว่าขั้นตอนกลางถูกจัดระเบียบอย่างไร หากชั้นสูงมองเพียงความแตกต่างของการกระจัด (Displacement) อาจสูญเสียข้อมูลเส้นทางในห่วงโซ่การกระทำนี้ได้ง่าย
HWM สะท้อนให้เห็นถึงวิธีการจัดระเบียบงานแบบลำดับชั้น เมื่อเผชิญกับงานหลายขั้นตอน ระบบไม่ได้ขยายการกระทำทั้งหมดในครั้งเดียวอีกต่อไป แต่สร้างเส้นทางขั้นตอนที่ค่อนข้างหยาบก่อน จากนั้นจึงดำเนินการและแก้ไขทีละส่วน ความสัมพันธ์แบบลำดับชั้นนี้เมื่อเข้าสู่โมเดลโลกแล้ว ความสามารถในการทำนายจะเริ่มเปลี่ยนเป็นความสามารถในการวางแผนได้อย่างมีเสถียรภาพมากขึ้น
3. จาก 0% ถึง 70% ผลการทดลองบอกอะไร
ในงานหยิบและวางในโลกจริงที่กำหนดไว้ในเอกสารวิจัย ระบบได้รับเฉพาะเงื่อนไขเป้าหมายสุดท้ายเท่านั้น ไม่ได้ให้เป้าหมายกลางที่มนุษย์แบ่งไว้ล่วงหน้า ภายใต้เงื่อนไขดังนี้ อัตราความสำเร็จของ HWM อยู่ที่ 70% ในขณะที่อัตราความสำเร็จของโมเดลโลกแบบชั้นเดียวอยู่ที่ 0% งานระยะยาวที่เดิมแทบไม่สามารถทำได้ หลังจากแนะนำการวางแผนแบบลำดับชั้นแล้ว กลายเป็นผลลัพธ์ที่มีแนวโน้มสูงที่จะบรรลุได้

เอกสารวิจัยยังทดสอบงานจำลอง เช่น การผลักวัตถุและการนำทางเขาวงกต ผลลัพธ์แสดงให้เห็นว่าการวางแผนแบบลำดับชั้นไม่เพียงแต่เพิ่มอัตราความสำเร็จ แต่ยังลดต้นทุนการคำนวณในขั้นตอนการวางแผนอีกด้วย ในบางสภาพแวดล้อม ต้นทุนการคำนวณในขั้นตอนการวางแผนสามารถลดลงเหลือประมาณหนึ่งในสี่ของเดิม ขณะที่ยังคงรักษาอัตราความสำเร็จที่สูงกว่าหรือเทียบเท่า
4. จาก V-JEPA ถึง HWM ถึง WAV
V-JEPA 2 เป็นตัวแทนของเส้นทางการแทนค่าโลก (World Representation) V-JEPA 2 ใช้วิดีโออินเทอร์เน็ตมากกว่า 1 ล้านชั่วโมงในการฝึกล่วงหน้า จากนั้นผสมผสานกับวิดีโอหุ่นยนต์น้อยกว่า 62 ชั่วโมงในการฝึกหลังการฝึกล่วงหน้า (Post-training) ได้รับ latent action-conditioned world model (โมเดลโลกในพื้นที่การแสดงแทนเชิงนามธรรม ที่ทำนายโดยผสมผสานข้อมูลการกระทำ) ที่สามารถใช้สำหรับการทำความเข้าใจ การทำนาย และการวางแผนโลกทางกายภาพ สิ่งที่มันแสดงให้เห็นคือโมเดลสามารถได้รับโลกการแทนค่าผ่านการสังเกตขนาดใหญ่ และถ่ายโอนการแทนค่านี้ไปยังการวางแผนหุ่นยนต์
HWM อยู่ที่ขั้นตอนต่อไป โมเดลมีโลกการแทนค่าและความสามารถในการทำนายพื้นฐานแล้ว แต่เมื่อเข้าสู่การควบคุมหลายขั้นตอน ปัญหาการสะสมข้อผิดพลาดและการขยายพื้นที่ค้นหาก็จะเกิดขึ้น HWM ไม่ได้เปลี่ยนเส้นทางการเรียนรู้การแทนค่าระดับพื้นฐาน แต่เพิ่มโครงสร้างการวางแผนหลายระดับเวลา (Multi-Timescale Planning Structure) ลงบนโมเดลโลกที่มีเงื่อนไขการกระทำที่มีอยู่แล้ว ปัญหาที่มันจัดการคือโมเดลจะจัดระเบียบเป้าหมายระยะไกลให้เป็นชุดขั้นตอนกลางอย่างไร จากนั้นจึงดำเนินการทีละส่วน
WAV ก้าวไปอีกขั้นโดยมุ่งความสนใจไปที่ความสามารถในการตรวจสอบ (Verification) หากโมเดลโลกต้องการเข้าสู่สถานการณ์การปรับ优化นโยบายและการปรับใช้ (Policy Optimization and Deployment) ไม่สามารถทำได้เพียงแค่ทำนาย แต่ต้องสามารถค้นพบว่าตนเองมีแนวโน้มที่จะบิดเบือนในพื้นที่ใด และทำการแก้ไขตามนั้น สิ่งที่มันสนใจคือโมเดลจะตรวจสอบตัวเองอย่างไร
V-JEPA มีแนวโน้มที่จะเน้นการแทนค่าโลก HWM มีแนวโน้มที่จะเน้นการวางแผนงาน และ WAV มีแนวโน้มที่จะเน้นการตรวจสอบผลลัพธ์ แม้ว่าทั้งสามจะมีจุดสนใจที่แตกต่างกัน แต่ทิศทางหลัก是一致的 ขั้นตอนต่อไปของโมเดลโลก ไม่ได้เป็นเพียงการทำนายภายในอีกต่อไป แต่เป็นการทำนาย การวางแผน และการตรวจสอบที่ค่อยๆ เชื่อมต่อกันเป็นชุดความสามารถของระบบ

5. จาก การทำนายภายใน สู่ ระบบที่สามารถดำเนินการได้
งานโมเดลโลกจำนวนมากในอดีต ค่อนข้างใกล้เคียงกับการปรับปรุงความต่อเนื่องของการทำนายสถานะในอนาคต หรือการปรับปรุงความเสถียรของการแทนค่าโลกภายใน แต่จุดเน้นการวิจัยในปัจจุบันเริ่มเปลี่ยนแปลงแล้ว ระบบต้องสร้างการตัดสินใจเกี่ยวกับสภาพแวดล้อม และต้องเปลี่ยนการตัดสินใจนั้นเป็นการกระทำ และหลังจากได้ผลลัพธ์แล้วก็ต้องแก้ไขขั้นตอนต่อไปอย่างต่อเนื่อง หากต้องการเข้าใกล้การปรับใช้จริงมากขึ้น จำเป็นต้องควบคุมการแพร่กระจายของข้อผิดพลาดในงานระยะยาว บีบอัดขอบเขตการค้นหา และลดต้นทุนการอนุมาน (Inference Cost)
การเปลี่ยนแปลงประเภทนี้จะส่งผลกระทบต่อ AI agent ด้วย ระบบ agent จำนวนมากสามารถทำงานสายสั้นได้แล้ว เช่น การเรียกใช้เครื่องมือ การอ่านไฟล์ การดำเนินการคำสั่งหลายขั้นตอน แต่เมื่องานกลายเป็นสายยาว หลายขั้นตอน และต้องการการวางแผนใหม่ระหว่างทาง ประสิทธิภาพจะลดลง ซึ่งไม่แตกต่างโดยพื้นฐานจากความยากในการควบคุมหุ่นยนต์ นั่นคือความสามารถในการจัดระเบียบเส้นทางระดับสูงไม่เพียงพอ ส่งผลให้การดำเนินการเฉพาะส่วนและเป้าหมายโดยรวมขาดการเชื่อมต่อ
แนวคิดแบบลำดับชั้นที่ HWM มอบให้ ชั้นสูงรับผิดชอบเส้นทางและเป้าหมายขั้นตอน ชั้นต่ำรับผิดชอบการกระทำเฉพาะส่วนและการประมวลผลผลตอบรับ (Feedback) ซ้อนทับกับการตรวจสอบผลลัพธ์ โครงสร้างแบบลำดับชั้นประเภทนี้จะปรากฏขึ้นอย่างต่อเนื่องในระบบมากขึ้นในอนาคต ขั้นตอนต่อไปของโมเดลโลก จุดเน้นไม่ใช่แค่การทำนายอนาคตอีกต่อไป แต่เป็นการจัดระเบียบการทำนาย การดำเนินการ และการแก้ไขให้เป็นเส้นทางที่สามารถทำงานได้


