DFlash — 블록 디퓨전으로 LLM 추론을 병렬화하다
LLM이 토큰을 하나씩 순차 생성하는 자기회귀 구조는 추론 속도의 근본적 병목입니다. DFlash는 Speculative Decoding의 드래프트 모델에 디퓨전 아키텍처를 도입해, 한 번에 15~16개 토큰을 병렬로 생성합니다.
왜 주목해야 하나
- 블록 디퓨전: 노이즈에서 출발해 점진적 정제로 병렬 토큰 생성
- 4대 백엔드 지원: vLLM, SGLang, Transformers, MLX
- 12+ 모델 호환: Qwen, LLaMA-3.1, Kimi-K2.5 등
- 프로덕션 레디: 플러그인 방식, 슬라이딩 윈도우 지원
- MIT 라이선스, GitHub Stars 1.9K+
Modal Labs와 NVIDIA 엔지니어가 직접 기여하고, arXiv 논문과 재현 가능한 벤치마크가 함께 공개되어 있습니다.
디퓨전이 텍스트 생성의 패러다임을 바꾸기 시작했습니다.