LTX-2 저장소에서 제일 먼저 봐야 할 것은 'audio-video foundation model'이라는 문구가 아닙니다. 그보다 더 많은 단서가 패키지 구조와 pipeline 목록에 들어 있습니다.
Lightricks는 LTX-2를 synchronized audio와 video를 함께 만드는 DiT 기반 모델로 설명합니다. 하지만 저장소를 따라가 보면 이야기가 조금 달라집니다. ltx-core는 transformer, video/audio VAE, vocoder, Gemma text encoder, FP8 quantization 같은 저수준 부품을 맡고, ltx-pipelines는 실제 실행 경로를 나눕니다. ltx-trainer는 LoRA, full fine-tuning, IC-LoRA 학습 흐름을 담당합니다.
이 분리는 꽤 중요합니다. LTX-2는 '모델 하나 실행해 보기'보다 '어떤 제작 경로를 고를 것인가'에 가까운 저장소입니다. production 품질을 원하면 TI2VidTwoStagesPipeline이 권장됩니다. 빠른 실험에는 TI2VidOneStagePipeline이나 DistilledPipeline이 있고, 기존 영상을 고치는 RetakePipeline, 오디오를 조건으로 영상을 만드는 A2VidPipelineTwoStage, 키프레임을 잇는 KeyframeInterpolationPipeline, HDR 결과물을 다루는 HDRICLoraPipeline도 따로 있습니다.
두 단계 업스케일 구조도 이 저장소의 성격을 잘 보여줍니다. 현재 two-stage pipeline 구현에는 spatial upscaler와 distilled LoRA가 필요합니다. temporal upscaler는 모델이 지원하며, 앞으로의 pipeline 구현에서 요구될 수 있다고 설명되어 있습니다. 공개 접근이라고 해서 단일 체크포인트 실행으로 끝나는 구조가 아닙니다.
실행 환경도 가볍지 않습니다. LTX-2.3 모델 체크포인트 외에 Gemma 3 text encoder assets, spatial upscaler, distilled LoRA를 맞춰야 하고, 성능을 위해 FP8 cast나 TensorRT-LLM FP8 scaled MM, xFormers, Flash Attention 3, gradient estimation 같은 선택지를 다뤄야 합니다. VRAM이 충분하면 stage 사이 memory cleanup을 건너뛰는 식의 운영 판단도 들어갑니다.
그래서 LTX-2의 비오비는 '오디오와 영상이 동시에 나온다'보다 넓습니다. 오픈 모델 시대의 병목은 점점 접근 허가에서 pipeline 조립 능력으로 이동하고 있습니다. LTX-2는 그 전환을 꽤 노골적으로 보여주는 저장소입니다. 모델은 열렸지만, 실제 제작 품질은 core, pipeline, trainer, LoRA, upscaler, optimizer를 어디까지 다룰 수 있느냐에 달려 있습니다.
출처: https://github.com/Lightricks/LTX-2