OpenAI가 5월 7일 공개한 세 개의 음성 API 모델은 각각의 역할이 명확하다. GPT-Realtime-2는 GPT-5급 추론을 탑재한 음성 에이전트, GPT-Realtime-Translate는 70개 이상 언어를 13개 출력 언어로 실시간 번역하는 모델, GPT-Realtime-Whisper는 저지연 스트리밍 전사 모델이다. 세 모델이 하나의 패키지가 아니라 API 단위로 분리되어 있다는 점이 이 릴리즈의 설계 의도를 가장 잘 보여준다. 번역만 필요한 팀, 전사만 필요한 팀, 풀 에이전트가 필요한 팀이 필요한 것만 조합해서 쓸 수 있도록 쪼개놓았다.
GPT-Realtime-2에서 가장 운영적으로 의미 있는 기능은 reasoning effort 슬라이더다. minimal, low, medium, high, xhigh — 기본값은 low. 단순한 턴에서는 레이턴시와 비용을 낮추고, 복잡한 multi-step 요청에서만 xhigh로 올린다. context window도 32K에서 128K로 네 배 늘었다. 긴 고객 지원 세션이나 여행 플래닝처럼 앞 내용이 계속 쌓이는 대화에서 창이 작으면 모델이 이전 맥락을 잃는다. Priceline이 항공, 호텔, TSA 대기 정보를 하나의 대화 흐름으로 처리하는 워크플로를 구축하고 있다는 것과 이 수치는 무관하지 않다. parallel tool call과 preamble 기능도 주목할 만하다. 도구를 호출하는 동안 침묵하는 대신 "확인하는 중이에요"라고 발화하고, 실패 시 무음 대신 graceful degradation 메시지를 내보낸다. 전화 기반 서비스에서 이탈률을 직접 결정하는 요소들이다.
공개된 숫자는 인상적이다. Zillow의 내부 adversarial 벤치마크에서 call success rate가 69%에서 95%로 올랐고, Fair Housing 컴플라이언스 측면에서도 개선이 확인됐다. 부동산 음성 에이전트에서 규제 준수는 선택이 아니라 서비스 존속 조건이다. 다만 OpenAI가 제시한 Big Bench Audio(+15.2%)와 Audio MultiChallenge(+13.8%)는 모두 연구팀이 새로 정의한 벤치마크라는 점에서 독립적 검증이 필요하다. 배경 소음, 지역 사투리, 끊긴 발화처럼 실제 운영 환경의 변수를 얼마나 반영하는지는 공개된 정보만으로는 알 수 없다. OpenAI가 Zillow, Deutsche Telekom, Priceline의 early access 사례를 수치 바로 옆에 나란히 배치한 것은 그 공백을 메우려는 의도로 읽힌다.
음성 AI의 기술적 진보보다 더 주목할 부분은 생태계가 어디로 수렴하고 있느냐다. reasoning effort 조절, parallel tool call, graceful failure 처리는 연구자가 아니라 SLA를 관리하는 운영팀이 다루어야 할 변수들이다. Deutsche Telekom이 다국어 고객 지원에, Priceline이 복합 여행 서비스에, Zillow가 규제 민감 부동산 서비스에 이 모델을 붙이고 있다는 것은 음성 AI가 실험 단계를 지나 실제 서비스의 핵심 인프라 레이어로 자리잡고 있다는 신호다. 그 전환 속도가 업계 예상보다 빠르게 진행되고 있다.