Harvard Medical School과 Beth Israel Deaconess 연구팀이 Science에 발표한 연구가 의료 AI 논쟁에 다시 불을 붙였습니다. TechCrunch가 전한 내용에 따르면 연구팀은 OpenAI의 o1과 4o를 여러 의료 상황에서 테스트했고, 그중 실제 응급실 환자 76명 사례에서 o1이 사람 의사보다 더 높은 진단 정확도를 보인 것으로 나타났습니다.
가장 눈에 띄는 장면은 초기 ER triage 단계입니다. 환자에 대한 정보가 가장 적고, 판단은 가장 빨라야 하는 순간입니다. 이 조건에서 o1은 “정확하거나 매우 가까운 진단”을 67% 제시했습니다. 비교 대상이 된 두 명의 내과 attending physician은 각각 55%, 50%였습니다. 연구팀은 AI를 위해 데이터를 별도로 정리하지 않았고, 당시 전자의무기록에 있던 텍스트 정보를 그대로 모델에 제공했다고 설명했습니다.
하지만 이 결과를 “AI가 응급실 의사를 이겼다”는 식으로만 받아들이면 중요한 부분을 놓치게 됩니다. 연구에서 비교된 의사들은 ER 전문의가 아니라 내과 attending physician이었습니다. 응급의학과 의사 Kristen Panthagani도 이 점을 지적했습니다. 특정 진료 현장의 능력을 비교하려면 그 현장을 실제로 담당하는 전문의와 비교해야 한다는 것입니다.
또 하나 중요한 차이가 있습니다. 응급실의 핵심은 최종 진단 이름을 맞히는 것만이 아닙니다. 환자가 지금 생명을 위협받는 상태인지, 어떤 처치를 먼저 해야 하는지, 어떤 위험 신호를 놓치면 안 되는지를 빠르게 판단해야 합니다. LLM이 텍스트 기록을 읽고 좋은 진단 후보를 내는 능력과 실제 생사 결정을 책임지는 일은 같은 문제가 아닙니다.
연구진도 AI가 당장 응급실에서 판단을 맡아도 된다고 주장하지 않았습니다. 오히려 실제 환자 진료 환경에서 전향적 시험이 필요하다고 강조했습니다. 현재 foundation model이 비텍스트 입력, 예를 들면 영상 자료나 신체진찰, 현장 맥락을 다루는 데 한계가 있다는 점도 언급됐습니다. Adam Rodman은 AI 진단에 대한 공식 책임 프레임워크가 아직 없고, 환자들이 생사의 결정에서 인간의 안내를 원한다는 점도 짚었습니다.
그래서 이번 연구의 의미는 ‘AI 의사’의 등장이 아니라, 의료 현장에서 LLM이 맡을 수 있는 보조 역할의 윤곽이 조금 더 선명해졌다는 데 있습니다. 기록을 빠르게 읽고 감별진단을 넓히는 도구, 의사가 놓칠 수 있는 가능성을 다시 확인하게 하는 두 번째 시선으로는 충분히 강력한 신호가 나왔습니다. 이제 남은 질문은 성능이 아니라 배치 방식입니다. 틀릴 수 있는 AI를 병원 안에 넣을 때, 누가 최종 책임을 지고 어떤 절차로 검증할 것인가. 의료 AI의 다음 단계는 바로 그 설계에 달려 있습니다.