VoxCPM2는 OpenBMB 연구팀이 공개한 토크나이저-프리 TTS 모델입니다. 기존 TTS의 텍스트→토큰→음성 과정에서 토큰화를 제거하고, Diffusion AR 아키텍처로 텍스트에서 48kHz 음성을 직접 생성합니다.
2B 파라미터 모델로 30개 언어를 지원하며, 3초 음성 샘플만으로 목소리를 복제할 수 있습니다. 자연어 설명으로 새 목소리를 디자인하는 Voice Design 기능도 제공합니다.
RTX 4090 기준 실시간 계수 0.3, VRAM 8GB면 로컬 실행이 가능합니다. Apache 2.0 라이선스로 상업 이용까지 가능한 검증된 오픈소스 TTS입니다.
GitHub ★ 15,354 · ICLR 2026 발표