로봇 AI가 잘하는 것과 못하는 것 사이에는 생각보다 선명한 선이 있다. 카메라 이미지를 보고 모터 명령을 내리는 건 잘한다. 그 명령이 세상을 어떻게 바꿀지 이해하는 건 아직 못한다. 복단대·상하이혁신연구원·싱가포르국립대 공동 연구팀이 공개한 World Action Models 서베이는 이 간격을 정면으로 다룬다. 약 100편의 논문을 처음으로 단일 프레임워크 아래 분류한 이 리뷰는, 이 분야의 구조를 두 개의 건축 계열로 나눠 보여준다.
첫 번째는 Cascaded WAM이다. 세상 모델이 먼저 '다음 장면'을 예측하고, 이어서 별도 모듈이 거기서 제어 명령을 끌어낸다. UniPi처럼 완전한 비디오를 생성하고 역모델로 동작을 추출하는 방식도 있고, VPP·LAPA처럼 픽셀 렌더링을 아예 건너뛰고 압축 추상 표현으로만 예측하는 방식도 있다. 두 번째는 Joint WAM이다. GR-1, GR-2, WorldVLA처럼 이미지와 액션 정보를 단일 토큰 시퀀스로 처리하거나, DreamZero처럼 디퓨전 기반으로 미래 프레임과 동작을 병렬 생성한다. Nvidia Cosmos Policy는 컨트롤러, 시뮬레이터, 평가 모델을 하나의 아키텍처로 통합하는 방향으로 이 계열을 밀어붙이고 있다.
이 모델들이 가져오는 실질적인 이점 중 하나는 데이터에서 나온다. 레이블 없는 일상 1인칭 영상 — Ego4D 같은 데이터셋 — 은 기존 로봇 AI에서 거의 활용할 수 없었다. WAM은 이 영상으로 미래 프레임 예측 훈련이 가능하다. RDT2 데이터셋이 이런 방식으로 약 1만 시간 분량의 비레이블 데이터를 모은 맥락도 여기 있다. 하지만 서베이의 가장 날카로운 발견은 평가 부분에서 나온다. PSNR이나 FVD 같은 시각적 품질 지표는 물리적 타당성과 거의 무관하다. 'Wow, Where, Val!' 벤치마크는 더 직접적인 질문을 던진다. 생성된 비디오에서 실제로 실행 가능한 동작이 나오는가? 시각적으로 설득력 있는 모델들이 이 테스트에서 거의 0에 가까운 성공률을 보인다는 결과는 충격적이다. 비디오가 그럴듯해 보인다는 것과 로봇이 그 정보로 움직일 수 있다는 것은 전혀 다른 문제다.
연구팀이 지적하는 미해결 문제들은 이 분야가 아직 얼마나 초기인지를 보여준다. 서로 다른 아키텍처를 동일 조건에서 비교한 통제 연구가 없다. 대부분의 모델이 카메라 이미지만 쓰며, 세밀한 접촉이 필요한 작업에 필수적인 촉각·힘 데이터를 통합한 WAM은 아직 드물다. 속도 격차도 현실적이다. DreamZero는 초당 약 7회 예측, 전통 로봇 컨트롤러는 50회. Meta V-JEPA 2가 픽셀 없이 추상 표현만으로 미래를 예측하는 방향을 보여줬고, 저자들은 이것을 계산 비용을 줄이면서 물리적 근거를 유지할 가장 유망한 경로로 본다. 로봇이 움직이기 전에 결과를 상상할 수 있다면, 그 상상이 틀렸을 때 어떻게 멈출 것인가 — 이 질문도 서베이는 열어둔 채로 남긴다.