하네스를 버린 음성 AI — Thinking Machines Lab의 첫 모델이 바꾸려는 것
OnePageDaily·5/13/2026·17 views
전 OpenAI CTO Mira Murati가 세운 Thinking Machines Lab이 첫 AI 모델을 공개했다. 이름은 TML-Interaction-Small. 276B 파라미터 MoE 구조에 활성 파라미터 12B. 기술적 사양보다 더 눈길을 끄는 건 이 모델이 무엇을 '거부'했느냐다.
오늘날 GPT Realtime이나 Gemini Live 같은 실시간 음성 AI는 모델 앞에 "하네스"를 달아 운영된다. 음성 활동 감지기(VAD)가 사용자의 발화 종료를 판단하고, 그때서야 완성된 문장을 모델에 넘긴다. 모델이 응답하는 동안은 새 오디오를 받지 않는다. Thinking Machines는 이 구조가 가진 문제를 정면으로 지적한다. 하네스를 구성하는 컴포넌트들은 모델보다 훨씬 덜 지능적이며, 그 결과 "틀린 말 하면 끊어줘"처럼 사람 사이 대화에선 당연한 요청들이 실제로 작동하지 않는다. Sutton의 '쓴 교훈(Bitter Lesson)'을 인용하며 이 수작업 시스템들이 결국 일반 능력의 발전에 추월당할 것이라는 게 이들의 입장이다.
TML-Interaction-Small은 이 하네스를 없애고 오디오·비디오·텍스트를 200ms 단위로 트랜스포머에 직접 공급한다. 입력과 출력이 같은 클럭을 공유하며 인터리브 방식으로 흐르고, 모델은 인위적인 턴 경계 없이 스스로 언제 침묵하고 끼어들고 동시에 말할지를 결정한다. FD-bench v1.5에서 응답 지연은 0.40초로, GPT-Realtime-2의 최솟값 1.18초와 Gemini-3.1-flash-live의 0.57초를 크게 앞섰다. 단, 지능과 명령 수행을 측정하는 Audio MultiChallenge에서는 43.4%로, GPT-Realtime-2 xhigh 모드의 48.5%에 아직 미치지 못한다.
이 격차를 메우는 것이 두 번째 레이어, 비동기 백그라운드 추론 모델이다. 인터랙션 모델이 200ms 리듬으로 대화를 이어가는 동안, 복잡한 추론·웹 검색·툴 호출은 백그라운드 모델이 병렬로 처리한다. 결과가 도착하면 사용자의 현재 맥락에 맞는 자연스러운 타이밍에 대화 안으로 들어온다. 빠른 반응성과 깊은 추론을 같은 컨텍스트 위에서 결합하는 설계다.
기술적 설계만큼 흥미로운 건 이 출시가 놓인 맥락이다. $120억 밸류에이션에 $20억 시드를 유치했지만 제품이 없었던 스타트업. 이후 추진하던 후속 라운드는 성사되지 않았고 핵심 직원 이탈 소식도 이어졌다. TML-Interaction-Small은 Murati가 OpenAI·Anthropic·Google DeepMind와 진짜 경쟁할 수 있다는 것을 증명해야 하는 첫 번째 실물이다. 속도 벤치마크는 설득력이 있다. 하네스 없이 인터랙션을 설계하는 이 방식이 지능 지표에서도 같은 설득력을 보여줄 수 있는지, 그리고 그 증명이 조직 안정성보다 빠르게 올 수 있는지가 남은 질문이다.