OpenAI가 미국의 검증된 개별 의료진에게 ChatGPT for Clinicians를 무료로 제공하기 시작했다. 표면적으로는 ‘의료진용 무료 AI’ 출시처럼 보이지만, 더 중요한 변화는 제품 기능과 평가 체계를 동시에 공개했다는 점이다. 이번 제품은 documentation, medical research, care consult를 지원하고, peer-reviewed sources 기반 cited search, reusable skills, deep research, 일부 계정 대상 HIPAA 지원 등을 묶어 임상 업무 흐름에 직접 들어가려 한다.
이 접근은 의료 AI의 경쟁 단위를 바꾼다. 이제 비교 대상은 단순 모델 성능이나 병원 엔터프라이즈 계약 규모만이 아니다. 개별 의료진이 바로 접근할 수 있는지, 실제 업무에서 자주 반복되는 문서화와 근거 확인을 얼마나 줄여주는지, 그리고 그 과정을 얼마나 검증 가능하게 운영하는지가 더 중요해진다.
출시와 함께 공개된 HealthBench Professional은 이 변화를 뒷받침한다. 실제 clinician chat task를 기준으로 care consult, writing/documentation, medical research를 평가하는 공개 벤치마크이며, physician-authored conversations와 rubrics, 다단계 의사 판정, deliberate red teaming을 포함한다. OpenAI는 수백 명의 physician advisor와 협업해 700,000개 이상의 모델 응답을 검토했고, 사전 테스트 6,924개 대화에서 99.6%가 safe and accurate 평가를 받았다고 밝혔다. 수치 자체보다 중요한 것은 의료 AI를 정적 모델이 아니라 지속 평가되는 서비스로 배포하려는 방향이다.
물론 이 제품을 진료 판단 대체로 읽어서는 안 된다. OpenAI도 clinician judgment와 expertise를 대신하지 않고 information support를 목표로 한다고 명확히 선을 긋는다. 그래서 이번 발표의 함의는 과장된 자동화가 아니라, 의료진 개인이 실제로 쓰는 정보 지원 도구가 어떤 워크플로와 어떤 검증 체계를 갖춰야 하는지 기준을 제시했다는 데 있다. 의료 AI 시장은 이제 ‘누가 더 똑똑한 모델을 만들었는가’보다 ‘누가 더 안전하게, 더 자주 쓰이게, 더 검증 가능하게 배포하는가’를 겨루는 단계로 넘어가고 있다.