NVlabs가 공개한 Sana는 'Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer'라는 부제 그대로, 고해상도 이미지 합성을 모델 크기가 아니라 아키텍처 절감으로 풀려는 시도다. 4096×4096 합성을 단일 GPU, 그것도 노트북급 환경에서 돌린다는 주장은 도발적이지만, 그 근거가 '엄청나게 큰 모델'이 아니라 세 가지 비대칭 설계 결정의 합산이라는 점이 흥미롭다.
첫 번째 결정은 이름에 박혀 있는 Linear Attention이다. 표준 Diffusion Transformer는 self-attention이 토큰 수의 제곱에 비례한다. 해상도가 두 배가 되면 토큰은 네 배, 어텐션 비용은 열여섯 배로 폭발한다. Sana는 이 차수를 선형으로 끌어내려, 해상도가 올라갈수록 절감 폭이 기하급수적으로 커지도록 만들었다. 4K가 데모 가능한 가장 큰 이유다.
두 번째는 VAE 압축률이다. 대부분의 latent diffusion 계열이 8× 압축에 머무는 동안, Sana는 32×까지 끌어올려 잠재 토큰 수 자체를 16배 줄였다. 보통 압축률을 높이면 미세 디테일이 무너져서 8×가 사실상 표준이었는데, Sana는 그 통념을 정면으로 거스른다. 줄어든 토큰을 선형 어텐션이 받아넘기니, 두 결정이 곱셈으로 작동해 전체 계산량이 한 자릿수 차이로 떨어진다.
세 번째는 텍스트 인코더의 다이어트다. T5-XXL이 점령하다시피 한 자리를 Gemma 계열 소형 LLM으로 대체했다. prompt following을 유지하면서 VRAM과 지연을 깎는 쪽에 베팅한 것이다. 이미지 합성 파이프라인에서 의외로 큰 비중을 차지하던 텍스트 인코더 비용을 정조준한 선택이다.
그래서 이 repo를 평가할 때 README의 화려한 샘플보다 먼저 봐야 할 건 config 파일이다. latent compression ratio, attention 종류, 어떤 텍스트 인코더가 묶여 있는지. 같은 'Sana' 이름의 체크포인트라도 이 세 변수의 조합이 달라지면 속도와 품질의 곡선이 완전히 달라진다. Diffusion 진영의 다음 라운드가 '모델을 더 키운다'가 아니라 '잠재공간을 더 압축하고 어텐션을 더 싸게 만든다' 쪽에서 갈릴 가능성을, 이 repo가 구체적인 코드로 보여주고 있다.