92개 영상으로 로봇을 가르치는 합성 데이터 파이프라인 — Cosmos Predict 2.5 LoRA 파인튜닝 해부
OnePageDaily·5/20/2026·11 views
로봇 조작 정책을 학습시키는 데 가장 큰 걸림돌은 시연 데이터다. 실제 로봇 팔로 pick-and-place 동작을 수백 번 수행하고 녹화해야 하는데, 시간과 비용이 선형으로 늘어난다. NVIDIA가 Hugging Face 블로그를 통해 공개한 Cosmos Predict 2.5 파인튜닝 가이드는 그 병목을 월드 모델로 우회하는 구체적인 파이프라인을 코드 수준으로 제시한다. 핵심은 92개의 로봇 조작 영상으로 비디오 생성 모델을 특화시킨 뒤, 그 모델로 새로운 합성 궤적을 생성해 downstream 정책 훈련에 공급하는 것이다.
2B 파라미터 Cosmos Predict 2.5를 통째로 재훈련하는 건 두 가지 이유로 비현실적이다. 첫째는 메모리와 연산 비용, 둘째는 catastrophic forgetting — 도메인 특화 데이터만 반복해서 보여주면 모델이 원래 갖고 있던 물리적 상식과 일반 동작 이해를 잃어버린다. LoRA는 이 문제를 우회한다. VAE, 텍스트 인코더, DiT 전체를 얼린 채 DiT의 어텐션 프로젝션(to_q, to_k, to_v, to_out.0)과 피드포워드 레이어에만 저랭크 어댑터 행렬을 삽입한다. rank=32로 설정된 LoRA 파라미터만 float32로 업캐스팅해 bf16 혼합 정밀도 아래에서 수치 안정성을 확보하는 세부 설계도 담겨 있다. 훈련이 끝나면 pytorch_lora_weights.safetensors 단일 파일만 저장되고, 도메인이 달라지면 그 파일만 교체하면 된다.
훈련 루프에는 놓치기 쉬운 설계 선택이 있다. Cosmos는 rectified flow 방식으로 훈련되는데, 모델이 예측하는 건 픽셀이 아니라 노이즈에서 클린 데이터 방향으로의 '속도(velocity)'다. 여기서 영상의 첫 두 프레임은 컨디셔닝 프레임으로 취급되어 노이즈가 전혀 더해지지 않는다. cond_mask로 구분되며, MSE 손실도 이 두 프레임을 제외한 나머지에만 계산된다. 로봇이 태스크를 시작하는 초기 자세와 장면을 고정한 채 이후 궤적만 생성하게 하는 구조인데, 이 경계가 흐릿해지면 초기 프레임부터 무너지는 결과가 나온다. 타임스텝 샘플링도 uniform이 아닌 logit-normal distribution을 사용해 중간 노이즈 레벨에 노출을 집중시킨다.
평가 방식도 독특하다. Sampson Error로 에피폴라 기하학 기반 궤적 오차를 측정하고, LLM-as-a-Judge로 태스크 수행 품질을 판단하는 두 지표를 병행한다. FID 같은 픽셀 품질 지표 하나로는 합성 비디오가 실제 downstream 로봇 정책 훈련에 기여하는지 알 수 없다는 전제가 반영된 설계다. 두 지표의 조합이 합성 데이터 품질과 실제 로봇 성능을 잇는 고리 역할을 한다. 단일 80GB GPU로 실행 가능하고 diffusers + peft 환경이면 예제 코드를 그대로 재현할 수 있는 수준의 공개라는 점에서, 이 파이프라인은 로봇 학습 연구자에게 실질적인 데이터 확장 도구가 됐다.