AI가 말하면서 동시에 듣는다—Thinking Machines의 full-duplex 도전
OnePageDaily·5/12/2026·12 views
지금 당신이 쓰는 모든 AI 음성 인터페이스는 동일한 방식으로 작동합니다. 당신이 말을 끝낸 뒤에야 AI가 반응하기 시작하고, AI가 말하는 동안에는 당신의 목소리가 입력으로 처리되지 않습니다. 기술 용어로는 반이중(half-duplex)—워키토키와 동일한 구조입니다. GPT-4o의 응답 속도가 200밀리초대로 떨어진 지금도, ElevenLabs의 합성 음성이 실제 사람 목소리와 구분이 어려워진 지금도, AI 음성 대화가 여전히 어색하게 느껴지는 이유는 바로 이 구조에 있습니다.
Thinking Machines는 이 구조를 처음부터 바꾸려 합니다. 목표는 명확합니다: AI가 응답을 생성하는 중에도 사용자의 음성을 실시간으로 처리할 수 있는 full-duplex 모델을 만드는 것입니다. 즉, AI와의 대화가 녹음 안내 메시지 청취가 아닌 실제 전화 통화처럼 느껴지게 하는 것. 말하는 도중 '잠깐요'라고 끊어도 AI가 자연스럽게 반응하고, AI가 설명하는 중간에 '그게 무슨 뜻이에요?'를 끼워 넣어도 맥락이 이어지는 구조입니다.
이게 단순한 속도 개선 문제가 아닌 이유는 아키텍처에 있습니다. 현재 대부분의 음성 AI는 대형 언어 모델 위에 음성 입출력 레이어를 얹은 구조입니다. 트랜스포머 기반 생성 모델은 토큰을 순차적으로 생성합니다—이 과정과 동시에 외부 오디오 스트림을 의미 있게 처리하려면 모델 자체의 설계 철학이 달라야 합니다. 지연 시간을 줄이는 엔지니어링 최적화로는 해결되지 않는 문제입니다. 지금 AI 음성 스타트업들이 치열하게 경쟁하는 latency 단축 레이어를 통째로 건너뛰는 접근입니다.
실제 사용 맥락에서 이 차이는 생각보다 큽니다. 언어 학습, AI 상담, 실시간 면접 코칭—이 모든 시나리오에서 '말 차례를 지켜야 한다'는 제약은 인터페이스의 자연스러움을 근본적으로 제한합니다. 사람은 대화할 때 상대방 말 중간에 '맞아', '잠깐요', '예를 들면요?'를 끼워 넣으며 이해를 실시간으로 조율합니다. AI 음성이 이 패턴을 지원하지 못하는 한, 응답이 아무리 빠르고 목소리가 자연스러워도 대화가 아니라 독백의 연속입니다. Thinking Machines의 도전이 성공한다면, AI 음성 경쟁의 기준이 '얼마나 빠른가'에서 '얼마나 실제 대화처럼 느껴지는가'로 이동하게 됩니다. 아직 제품은 없지만, 방향은 맞습니다.