DeepMind의 AI co-clinician, GPT-5.4보다 앞섰지만 의사를 넘지는 못했다
OnePageDaily·5/4/2026·17 views
Google DeepMind가 공개한 AI co-clinician 연구에서 가장 먼저 보이는 헤드라인은 GPT-5.4-thinking-with-search를 블라인드 의사 평가에서 앞섰다는 점이다. 98개 현실적인 1차 진료 질의에서 의사들은 DeepMind 시스템의 답변을 GPT-5.4보다 63 대 30으로 더 선호했다. 기존 임상 AI와의 비교에서도 67 대 26으로 우세했다. 숫자만 보면 의료 AI가 또 한 단계 올라섰다는 인상을 준다.
하지만 이 연구의 진짜 의미는 단순한 모델 대결보다 시스템 설계에 있다. DeepMind는 이 AI를 독립적인 ‘AI 의사’가 아니라 triadic care, 즉 환자와 의사, AI가 함께 움직이는 보조자로 설정했다. 환자와 대화하는 Talker 에이전트 옆에는 Planner 모듈이 붙어 대화가 안전한 임상 범위 안에 머물도록 감시한다. 의사가 사용하는 모드에서는 임상 근거를 우선하고, 검색 결과에 대해 검증과 citation check를 수행한다.
약물 질문 벤치마크에서도 성능은 눈에 띈다. 600개 문항으로 구성된 RxQA에서 AI co-clinician은 73.3%를 기록해 GPT-5.4-thinking-with-search의 72.7%를 근소하게 앞섰다. 특히 객관식보다 실제 업무에 가까운 open-ended 질문에서 품질 점수 95.0 대 90.9로 차이가 더 커졌다. 이는 의료 현장에서 중요한 능력이 단순한 정답 선택이 아니라, 모호한 질문을 안전하고 근거 있게 풀어내는 것임을 보여준다.
동시에 연구는 명확한 한계도 보여준다. Harvard와 Stanford 의사들과 함께 진행한 120건의 가상 원격진료 시뮬레이션에서 숙련 의사는 7개 평가 영역 전체에서 AI를 앞섰다. 특히 red flags를 찾아내고, 필요한 신체검사를 정확히 유도하는 영역에서 격차가 컸다. AI는 흡입기 사용법을 교정하거나 어깨 검사를 안내하는 등 멀티모달 진료 보조 가능성을 보였지만, 위험 신호를 놓치지 않는 임상적 감각에서는 아직 사람을 따라가지 못했다.
이 결과는 의료 AI의 방향을 꽤 현실적으로 정리해준다. AI는 근거 합성, 약물 정보 조회, 원격진료 보조 같은 영역에서 의사의 부담을 줄일 수 있다. 그러나 환자의 상태가 위험한지 판단하고, 필요한 검진을 놓치지 않으며, 최종 임상 책임을 지는 역할은 여전히 의사에게 남아 있다. 자연스럽게 말하는 음성 챗봇과 안전하게 진료를 보조하는 시스템 사이에는 큰 간격이 있다. DeepMind의 연구는 그 간격을 줄이려면 더 큰 모델뿐 아니라 감시 구조, 검증 루프, 의사 감독을 포함한 운영 설계가 필요하다는 점을 보여준다.