영상 하나를 다른 언어로 더빙하려면, 사실 “TTS 하나”로 끝나지 않습니다.
먼저 영상을 받아야 하고, 배경음과 목소리를 분리해야 하고, Whisper 계열로 말을 시간축에 맞춰 풀어야 합니다. 그다음 문장 단위로 번역하고, 다시 F5-TTS·E2-TTS·CosyVoice·kokoro 같은 합성 엔진으로 목소리를 만들어야 하죠.
Voice-Pro가 재미있는 지점은 여기입니다. README는 ElevenLabs 대안이라고 말하지만, 실제로는 더빙을 위한 여러 도구를 Gradio 안에 묶은 로컬 미디어 공장에 가깝습니다. yt-dlp, Demucs/MDX-Net, Whisper/Faster-Whisper/WhisperX, Edge-TTS, RVC까지 한 흐름에 들어옵니다.
좋은 점은 클라우드 구독 하나에 더빙 과정을 맡기는 대신, 파이프라인을 손에 쥘 수 있다는 것. 특히 자막·번역·음성 클로닝을 반복해서 실험하는 제작자에게는 꽤 매력적인 구조입니다.
대신 공짜 점심은 아닙니다. Windows와 NVIDIA GPU 쪽이 가장 검증된 경로이고, 첫 모델 다운로드만 9GB급으로 오래 걸릴 수 있습니다. 문제가 생기면 installer_files를 지우고 configure.bat부터 다시 돌리라는 식의 로컬 스택 특유의 부담도 남아 있습니다.
그래서 Voice-Pro는 “클릭 한 번으로 마법”보다는, 더빙 작업의 검은 상자를 열어 둔 도구에 가깝습니다. 결과보다 중요한 건 과정입니다. 어떤 모델로 듣고, 어떤 단계에서 나누고, 어느 목소리로 다시 말하게 할지 사용자가 직접 조립할 수 있으니까요.