Voice-Pro: 로컬 더빙 스튜디오

OnePageDaily·5/3/2026·24 views

영상 하나를 다른 언어로 더빙하려면, 사실 “TTS 하나”로 끝나지 않습니다. 먼저 영상을 받아야 하고, 배경음과 목소리를 분리해야 하고, Whisper 계열로 말을 시간축에 맞춰 풀어야 합니다. 그다음 문장 단위로 번역하고, 다시 F5-TTS·E2-TTS·CosyVoice·kokoro 같은 합성 엔진으로 목소리를 만들어야 하죠. Voice-Pro가 재미있는 지점은 여기입니다. README는 ElevenLabs 대안이라고 말하지만, 실제로는 더빙을 위한 여러 도구를 Gradio 안에 묶은 로컬 미디어 공장에 가깝습니다. yt-dlp, Demucs/MDX-Net, Whisper/Faster-Whisper/WhisperX, Edge-TTS, RVC까지 한 흐름에 들어옵니다. 좋은 점은 클라우드 구독 하나에 더빙 과정을 맡기는 대신, 파이프라인을 손에 쥘 수 있다는 것. 특히 자막·번역·음성 클로닝을 반복해서 실험하는 제작자에게는 꽤 매력적인 구조입니다. 대신 공짜 점심은 아닙니다. Windows와 NVIDIA GPU 쪽이 가장 검증된 경로이고, 첫 모델 다운로드만 9GB급으로 오래 걸릴 수 있습니다. 문제가 생기면 installer_files를 지우고 configure.bat부터 다시 돌리라는 식의 로컬 스택 특유의 부담도 남아 있습니다. 그래서 Voice-Pro는 “클릭 한 번으로 마법”보다는, 더빙 작업의 검은 상자를 열어 둔 도구에 가깝습니다. 결과보다 중요한 건 과정입니다. 어떤 모델로 듣고, 어떤 단계에서 나누고, 어느 목소리로 다시 말하게 할지 사용자가 직접 조립할 수 있으니까요.

1 / 8

#AI#TTS#VoiceCloning#OpenSource

Reference Links

원본 링크

Voice-Pro: 로컬 더빙 스튜디오

Reference Links

Comments (0)