세계 모델, 예측에서 계획으로, HWM과 장기 제어 문제

特邀专栏作者

2026-04-17 10:20

이 기사는 약 2700자로, 전체를 읽는 데 약 4분이 소요됩니다

4월 3일, NYU와 Meta FAIR 팀이 논문 'Hierarchical Planning with Latent World Models(HWM)'을 발표했습니다. 원문 주소: (https://arxiv.org/abs/2604.03208) 이 논문은 더 사실적인 미래 장면을 생성하는 데 계속 초점을 맞추기보다는, 세계 모델이 오랫동안 직면해 온 실행 문제로 방향을 전환했습니다. 작업 체인이 길어지면 예측 오차가 지속적으로 누적되고, 동작 탐색 공간도 빠르게 확대됩니다.

AI 요약

펼치기

핵심 관점: 세계 모델 연구의 초점은 내부 예측 능력 향상에서, 예측, 계획, 검증을 통합한 실행 가능한 시스템 능력 구축으로 전환되고 있으며, 이는 장기적, 다단계 작업에서의 오차 누적 및 계획 복잡성 문제를 해결하기 위함입니다.
핵심 요소:
1. V-JEPA 2는 백만 시간 이상의 비디오 사전 훈련을 통해 세계 모델의 표현 학습과 기본 예측에서의 잠재력을 보여주었으며, 이는 후속 계획을 위한 기초를 제공합니다.
2. HWM은 계층적 계획 구조를 도입하여 장기 작업을 상위 단계 경로와 하위 국부 동작으로 분해함으로써, 실제 파지 작업에서 성공률을 0%에서 70%로 향상시켰습니다.
3. 계층적 계획은 작업 성공률을 높일 뿐만 아니라, 일부 시나리오에서 계획 계산 비용을 원래의 약 4분의 1 수준으로 낮췄습니다.
4. WAV 모델은 모델이 자신의 예측 왜곡을 식별하고 수정하는 데 초점을 맞추며, 이는 시스템 검증 능력의 발전 방향을 대표합니다.
5. 연구 동향은 세계 모델이 단순히 미래를 예측하는 것에서 예측, 계획, 검증을 통합한 시스템 능력으로 진화하고 있음을 보여주며, 이는 긴 체인, 다단계 작업의 도전에 대응하기 위함입니다.

서론

지난 1년간 세계 모델 연구의 초점은 처음에 표현 학습과 미래 예측에 집중되었습니다. 모델은 먼저 세계를 이해한 다음, 내부적으로 미래 상태를 추론합니다. 이 경로는 이미 일련의 대표적인 성과를 산출했습니다. V-JEPA 2(Video Joint Embedding Predictive Architecture 2—Meta가 2025년에 발표한 비디오 세계 모델 세트)는 100만 시간 이상의 인터넷 비디오로 사전 훈련을 진행한 후, 소량의 로봇 상호작용 데이터와 결합하여 세계 모델의 이해, 예측 및 제로샷 로봇 계획 잠재력을 보여주었습니다.

그러나 모델이 예측할 수 있다고 해서 모델이 긴 작업을 처리할 수 있다는 것은 아닙니다. 다단계 제어에 직면하면 시스템은 일반적으로 두 가지 압력에 직면합니다. 하나는 예측 오차가 긴 롤아웃(연속적인 다단계 추론) 동안 지속적으로 누적되어 전체 경로가 목표에서 점점 더 벗어나기 쉽다는 것입니다. 다른 하나는 동작 탐색 공간이 호라이즌(계획 시야)이 증가함에 따라 빠르게 확장되어 계획 비용이 지속적으로 상승한다는 것입니다. HWM은 세계 모델의 기본 학습 경로를 다시 쓰지 않고, 기존의 동작 조건부 세계 모델 위에 계층적 계획 구조를 추가하여 시스템이 먼저 단계적 경로를 구성한 다음, 국부적 동작을 처리하도록 했습니다.

기술적으로 볼 때, V-JEPA 2(https://ai.meta.com/research/vjepa/)는 세계 표현과 기본 예측에 더 치우쳐 있고, HWM은 장기 계획에 더 치우쳐 있으며, WAV(World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985)는 모델이 자신의 예측 왜곡을 인식하고 수정하는 데 더 치우쳐 있습니다. 세 가지 경로는 점점 수렴하고 있습니다. 세계 모델 연구의 초점은 단순히 미래를 예측하는 것에서 예측 능력을 실행 가능하고, 수정 가능하며, 검증 가능한 시스템 능력으로 전환하는 방법으로 전환되었습니다.

1. 왜 장기 제어가 여전히 세계 모델의 병목인가

장기 제어의 어려움은 로봇 작업에 배치하면 더 명확하게 볼 수 있습니다. 로봇 팔 조작을 예로 들면, 컵을 집어서 서랍에 넣는 것은 단일 동작이 아니라 일련의 연속적인 단계입니다. 시스템은 물체에 접근하고, 자세를 조정하고, 파지를 완료하고, 목표 위치로 이동한 다음, 서랍과 배치를 처리해야 합니다. 체인이 길어지면 두 가지 문제가 동시에 발생합니다. 하나는 예측 오차가 롤아웃을 따라 지속적으로 누적되고, 다른 하나는 동작 탐색 공간이 빠르게 확장된다는 것입니다.

시스템에 부족한 것은 일반적으로 국부적 예측 능력이 아니라, 먼 목표를 단계적 경로로 구성하는 능력입니다. 많은 동작들은 국부적으로 보면 목표에서 벗어나는 것처럼 보이지만, 실제로는 목표를 완료하는 데 필요한 중간 단계입니다. 예를 들어, 파지하기 전에 팔을 들어 올리거나, 서랍을 열기 전에 조금 뒤로 물러나 각도를 조정하는 것과 같습니다.

데모 작업에서 세계 모델은 이미 일관된 예측을 제공할 수 있습니다. 그러나 실제 제어 시나리오에 들어가면 성능이 하락하기 시작하고 문제도 나타납니다. 압력은 표현 자체뿐만 아니라 아직 충분히 성숙하지 않은 계획 계층에서도 비롯됩니다.

2. HWM이 계획 과정을 어떻게 재구성하는가

HWM은 원래 한 단계로 완료되던 계획 과정을 두 단계로 분리합니다. 상위 계층은 더 긴 시간 척도에서의 단계적 방향을 담당하고, 하위 계층은 더 짧은 시간 척도에서의 국부적 실행을 담당합니다. 모델은 하나의 리듬으로만 계획하는 것이 아니라, 두 가지 다른 시간 리듬으로 동시에 계획합니다.

단일 계층 방법이 긴 작업을 처리할 때는 일반적으로 기본 동작 공간에서 직접 전체 동작 체인을 탐색해야 합니다. 작업이 길수록 탐색 비용이 높아지고, 예측 오차도 다단계 롤아웃을 따라 지속적으로 확산되기 쉽습니다. HWM이 과정을 분리한 후, 상위 계층은 더 긴 시간 척도에서의 경로 선택만 처리하고, 하위 계층은 현재 이 구간의 동작 완료만 처리하여 전체 긴 작업이 여러 개의 더 짧은 작업으로 분할되어 계획 복잡도가 감소합니다.

여기에는 또 다른 중요한 설계가 있습니다. 상위 계층 동작은 단순히 두 상태 사이의 차이를 기록하는 것이 아니라, 인코더를 사용하여 일련의 하위 계층 동작을 더 높은 수준의 동작 표현으로 압축합니다. 긴 작업의 경우, 핵심은 시작점과 끝점 사이에 얼마나 차이가 있는지뿐만 아니라, 중간 단계가 어떻게 조직되는지에 있습니다. 상위 계층이 변위 차이만 본다면, 이 동작 체인의 경로 정보를 잃기 쉽습니다.

HWM은 계층적 작업 조직 방식을 구현합니다. 다단계 작업에 직면했을 때, 시스템은 더 이상 모든 동작을 한 번에 펼치지 않고, 먼저 더 거친 단계적 경로를 형성한 다음, 구간별로 실행하고 수정합니다. 이러한 계층 관계가 세계 모델에 통합된 후, 예측 능력은 더 안정적으로 계획 능력으로 전환되기 시작합니다.

3. 0%에서 70%까지, 실험 결과가 무엇을 말하는가

논문에서 설정한 실제 세계 파지 및 배치 작업에서 시스템은 최종 목표 조건만 받고, 사람이 분리해 준 중간 목표는 제공되지 않았습니다. 이러한 조건에서 HWM의 성공률은 70%에 달했으며, 단일 계층 세계 모델의 성공률은 0%였습니다. 원래 거의 완료할 수 없었던 긴 작업이 계층적 계획을 도입한 후, 높은 확률로 실현 가능한 결과가 되었습니다.

논문은 또한 물체 밀기 조작 및 미로 탐색과 같은 시뮬레이션 작업을 테스트했습니다. 결과는 계층적 계획이 성공률을 높일 뿐만 아니라, 계획 단계의 계산 비용도 낮춘다는 것을 보여주었습니다. 일부 환경에서는 계획 단계의 계산 비용이 최대 약 4분의 1로 줄어들면서도 더 높거나 비슷한 성공률을 유지할 수 있었습니다.

4. V-JEPA에서 HWM, 그리고 WAV까지

V-JEPA 2는 세계 표현 경로를 대표합니다. V-JEPA 2는 100만 시간 이상의 인터넷 비디오로 사전 훈련을 진행한 후, 62시간 미만의 로봇 비디오와 결합하여 포스트 트레이닝(사전 훈련 후의 표적 훈련)을 수행하여 물리적 세계를 이해, 예측 및 계획하는 데 사용할 수 있는 잠재 동작 조건부 세계 모델(추상 표현 공간에서 동작 정보를 결합하여 예측하는 세계 모델)을 얻었습니다. 이것이 보여주는 것은 모델이 대규모 관찰을 통해 세계 표현을 획득하고, 이 표현을 로봇 계획에 전이시킬 수 있다는 것입니다.

HWM은 다음 단계에 있습니다. 모델은 이미 세계 표현과 기본 예측 능력을 가지고 있지만, 다단계 제어에 들어가면 오차 누적과 탐색 공간 확장 문제가 폭발합니다. HWM은 기본 표현 학습 경로를 변경하지 않고, 기존의 동작 조건부 세계 모델 위에 다중 시간 척도 계획 구조를 추가했습니다. 그것이 처리하는 문제는 모델이 어떻게 먼 목표를 일련의 중간 단계로 조직한 다음, 구간별로 추진하는가입니다.

WAV는 한 걸음 더 나아가 검증 능력에 초점을 맞춥니다. 세계 모델이 정책 최적화 및 배포 시나리오에 진입하려면 예측만 할 수 있는 것이 아니라, 자신이 어떤 영역에서 왜곡되기 쉬운지 발견하고 이를 기반으로 보정할 수 있어야 합니다. 그것은 모델이 자신을 어떻게 점검하는지에 관심을 둡니다.

V-JEPA는 세계 표현에 치우쳐 있고, HWM은 작업 계획에 치우쳐 있으며, WAV는 결과 검증에 치우쳐 있습니다. 세 가지는 초점이 다르지만, 큰 방향은 일치합니다. 세계 모델의 다음 단계는 더 이상 내부 예측뿐만 아니라, 예측, 계획, 검증이 점차 하나의 시스템 능력으로 연결되는 것입니다.

5. 내부 예측에서 실행 가능한 시스템으로

과거의 많은 세계 모델 작업은 미래 상태 예측의 연속성을 향상시키거나 내부 세계 표현의 안정성을 향상시키는 데 더 가까웠습니다. 그러나 현재 연구의 초점은 이미 변화하기 시작했으며, 시스템은 환경에 대한 판단을 형성해야 할 뿐만 아니라, 그 판단을 동작으로 전환하고 결과가 나온 후에도 다음 단계를 계속 수정해야 합니다. 실제 배포에 더 가까워지려면 장기 작업에서 오차 전파를 제어하고, 탐색 범위를 압축하며, 추론 비용을 낮추는 것이 필요합니다.

이러한 변화는 AI 에이전트에도 영향을 미칩니다. 많은 에이전트 시스템은 이미 도구 호출, 파일 읽기, 여러 단계 명령 실행과 같은 짧은 링크 작업을 완료할 수 있습니다. 그러나 작업이 긴 링크, 다단계, 도중 재계획이 필요한 것으로 변하면 성능이 하락합니다. 이것은 로봇 제어의 어려움과 본질적으로 다르지 않으며, 모두 상위 계층 경로 조직 능력 부족으로 인해 국부적 실행과 전체 목표 사이에 단절이 발생하는 것입니다.

HWM이 제공하는 계층적 사고방식—상위 계층이 경로와 단계적 목표를 담당하고, 하위 계층이 국부적 동작과 피드백 처리를 담당하며, 결과 검증을 추가하는—이러한 계층적 구조는 미래에 더 많은 시스템에서 지속적으로 나타날 것입니다. 세계 모델의 다음 단계의 초점도 더 이상 미래 예측뿐만 아니라, 예측, 실행 및 수정을 실행 가능한 경로로 조직하는 것입니다.

Web 4.0

Odaily 공식 커뮤니티에 가입하세요