OpenAI가 Realtime API에 세 가지 음성 모델을 동시 공개했다. GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. 발표 자체는 깔끔하지만, 이 업데이트가 실제로 의미하는 건 음성 인터페이스 개발의 진입 장벽이 한 단계 낮아졌다는 것이다. OpenAI 스스로 표현한 목표가 이 업데이트를 잘 설명한다. 음성 인터페이스를 '단순한 질문-응답'에서 '실제로 일을 하는 인터페이스'로 옮기겠다는 것.
세 모델 중 가장 주목할 건 GPT-Realtime-2다. 전작인 GPT-Realtime-1.5가 단순한 콜-앤-리스폰스 구조였다면, 이번 버전에는 GPT-5급 추론이 탑재됐다. 대화 흐름 안에서 복잡한 요청을 판단하고 처리할 수 있다는 뜻인데, 콜센터 봇이 스크립트를 따라가다 막히는 상황 대신 예외를 스스로 판단하는 방향으로 이어질 가능성이 높다. GPT-Realtime-Translate는 70개 이상 입력 언어와 13개 출력 언어로 실시간 통역을 제공하고, GPT-Realtime-Whisper는 인터랙션이 발생하는 순간 음성을 텍스트로 변환한다. 세 모델 모두 하나의 Realtime API 안에 들어 있어서, 개발자는 단일 파이프라인에서 추론·번역·전사를 조합해 쓸 수 있다.
과금 구조도 눈여겨볼 지점이다. Translate와 Whisper는 분당 과금, GPT-Realtime-2는 토큰 소비 기준으로 나뉜다. 사용 패턴에 따라 비용 최적화 전략이 달라지기 때문에, 개발자 입장에서는 서비스 설계 단계부터 어떤 모델을 어느 시점에 호출할지를 결정해야 한다. '음성 API 하나 붙이면 끝'이 아니라, 비용과 성능 사이의 트레이드오프를 고려한 아키텍처 선택이 필요해진 셈이다.
OpenAI는 고객 서비스 외에도 교육, 미디어, 이벤트, 크리에이터 플랫폼을 주요 적용 영역으로 제시했다. 글로벌 라이브 스트리밍 실시간 통역이나 다국어 교육 앱의 즉각 피드백 같은 시나리오가 이제 API 수준에서 구현 가능해졌다. 오용 방지를 위한 유해 콘텐츠 감지 트리거도 내장됐지만, 70개 언어를 다루는 시스템에서 각 언어·문화권별 유해성 기준을 얼마나 일관되게 적용할 수 있을지는 실운영 단계에서 확인해야 할 숙제로 남는다. 이 질문에 대한 답이 음성 AI 오남용 논의의 다음 챕터를 결정할 것이다.