NVlabs가 LongLive 2.0을 공개했다. 새 비디오 생성 모델이 등장했다고 보기 쉽지만, repo의 자기소개는 의외로 담백하다. "Infra - Long Video Gen." 모델이 아니라 인프라라고 스스로를 규정한 것이다. 공개 직후 GitHub 트렌딩 14위, 하루 79개의 stars, Python 기반. 숫자보다 흥미로운 건 이 한 줄 선언이다.
긴 비디오 생성의 진짜 난제는 한 장면을 잘 그리는 게 아니다. 수십 초에서 수 분에 걸쳐 캐릭터의 얼굴, 옷, 배경, 조명, 색감이 흐트러지지 않게 유지하는 것 — 즉 시간 축에 걸친 일관성과 누적 오류 관리다. 그래서 long video 영역에서는 attention window를 어떻게 자르고, KV 캐시를 어떻게 유지·폐기하며, 청크 사이를 어떻게 이어 붙이고, GPU 메모리 단편화를 어떻게 막느냐가 결과 품질의 8할을 결정한다.
LongLive 2.0이 "Infra"를 정체성으로 가져왔다는 건 이 문제를 모델 아키텍처가 아니라 시스템 레이어에서 풀겠다는 의지로 읽힌다. 흡사 vLLM이 LLM 추론에 가져온 변화 — PagedAttention, continuous batching, KV 캐시 정책 — 를 비디오 디퓨전 쪽에 시도하는 모양새다. Open-Sora나 CogVideoX 같은 프로젝트가 모델 가중치와 아키텍처를 자산으로 둔다면, LongLive는 이미 학습된 backbone을 '오래' 굴리는 런타임 자체를 자산으로 둔다.
물론 경계할 부분도 있다. README가 아직 한 줄에 가깝고, 벤치마크·메모리 프로파일·라이선스 범위는 코드로 직접 검증해야 한다. NVlabs가 운영한다는 건 강력한 NVIDIA 스택 정합성을 기대할 수 있다는 뜻이지만, 동시에 비-NVIDIA 환경 포팅 비용이 높을 가능성도 의미한다. 그럼에도 신호는 분명하다. 긴 비디오 생성의 다음 라운드는 더 큰 디퓨전이 아니라 더 똑똑한 런타임에서 갈린다는 것 — LongLive 2.0은 그 가설을 NVlabs가 직접 코드로 검증해 보려는 첫 수다.