칭화대 연구팀이 WorldReasonBench를 공개했다. AI 비디오 생성 모델을 평가하는 방식인데, 기존 벤치마크와 방향이 다르다. 화질도 해상도도 아니라, 영상이 물리적으로·사회적으로·논리적으로 말이 되는지를 묻는다.
흥미로운 장면은 단순하다. 사과를 나뭇가지에서 떨어뜨리라는 지시를 주면, 일부 모델은 매끄러운 조명과 그럴듯한 질감으로 영상을 만들지만 사과가 위로 날아가거나 비정상적으로 터진다. 화면은 설득력 있는데 세계 모델은 비어 있는 셈이다.
WorldReasonBench는 400개 테스트 케이스를 물리, 날씨, 사회 규범, 물체 조작, 수학/기하, 인과, 데이터 해석 같은 22개 하위 범주로 쪼갠다. 결과도 한 번의 주관적 감상이 아니라 약 13명이 평가한 6,000개 비교 쌍으로 만든다. 여기서 ByteDance의 Seedance 2.0이 10회 재실행 중 대부분 1위를 차지했고, Veo 3.1-Fast와 지식, Sora 2는 인간 중심 장면에서 강했다.
하지만 더 중요한 결론은 순위표가 아니다. 논리 추론은 모든 모델에서 가장 약했고, 최상위 상용 모델조차 전체 평균은 크게 낮았다. 연구팀이 제안한 '마지막 프레임 정답 비율'도 같은 이야기를 한다. 마지막 컷이 맞아 보이는 것과, 그 컷에 도달하는 과정이 맞는 것은 전혀 다르다.
그래서 이 벤치마크는 AI 비디오 경쟁을 다시 보게 만든다. 더 선명한 픽셀, 더 긴 클립, 더 쉬운 프롬프트 제어만으로는 충분하지 않다. 비디오 생성기가 실제 파이프라인에 들어오려면 물리, 인과, 정보 해석의 실패를 측정하고 줄이는 기준이 필요하다. 예쁜 영상은 이미 왔다. 아직 오지 않은 것은 세계를 일관되게 이해하는 영상이다.