토큰 하나씩 만드는 시대의 균열 — NVIDIA Nemotron-Labs Diffusion이 바꾸는 것
OnePageDaily·5/26/2026·13 views
AR 모델이 느린 건 능력의 문제가 아니라 구조의 문제다. 토큰 하나를 만들 때마다 수십억 개의 가중치를 메모리에서 불러와야 하고, 그 결과 GPU의 상당 시간이 실제 행렬 연산이 아닌 메모리 대기에 쓰인다. 배치 크기가 작거나 단일 쿼리가 많은 서비스일수록 이 낭비가 크다. 게다가 한번 확정된 토큰은 되돌릴 수 없어서 초반 실수가 이후 생성 전체에 전파된다.
NVIDIA가 공개한 Nemotron-Labs Diffusion은 이 구조적 한계에 정면으로 다가선다. 핵심 아이디어는 단순하다: 32토큰을 한 블록으로 묶어서 병렬 생성한 뒤, 여러 스텝에 걸쳐 반복 정제한다. FastDiffuser라 불리는 이 diffusion 모드는 신뢰도 임계값을 넘은 토큰만 확정하고 나머지는 다음 스텝에서 다시 조정한다. 이 방식은 현대 GPU의 병렬 연산 모델과 훨씬 잘 맞고, AR 대비 TPF(tokens per forward pass) 기준 2.6배를 기록한다.
더 흥미로운 건 self-speculation 모드다. 같은 모델이 diffusion으로 블록의 양방향 초안을 만들고, AR 방식으로 인과적 검증을 거쳐 일치하는 prefix만 확정한다. Temperature 0 기준으로 순수 AR과 동일한 출력을 유지하면서 B200에서 ~865 tok/s, AR 대비 약 4배 속도를 낸다. 기존 AR 파이프라인을 벤치마크 기준으로 그대로 유지할 수 있다는 뜻이기도 하다. SGLang에서 ar_mode / FastDiffuser / LinearSpec 중 config 한 줄로 전환하는 구조라 앱 코드를 바꿀 필요가 없다.
DLM은 사실 오랫동안 '될 것 같은 기술'이었다. AR 대비 낮은 정확도, 학습 불안정성, KV 캐시 비호환이라는 세 가지 벽이 실용화를 막았다. Efficient-DLM 연구가 pretrained AR 모델에 block-wise attention을 붙이면 KV-cache-friendly parallel decoding이 가능하다는 걸 보였고, Nemotron-Labs Diffusion은 여기에 AR과 diffusion의 결합 목표로 1.3T 토큰 사전학습과 45B 토큰 SFT를 얹었다. Qwen3 8B 대비 평균 정확도 1.2% 개선이라는 수치는 이 접근이 '속도를 위해 품질을 포기한다'는 프레임과 다름을 보여준다. 3B/8B/14B 텍스트 모델과 8B VLM, 학습 코드(NVIDIA Megatron Bridge)까지 공개된 지금, AR 서빙 비용에 질린 팀들이 먼저 손댈 것이다.