오픈AI는 GPT-5.5 인스턴트가 건강 관련 질문에서 프론티어 Thinking 모델과 동등한 성능을 보이며, HealthBench 및 HealthBench Professional에서 GPT-5.3 인스턴트보다 높은 점수를 기록했다고 보고했다 . 독립적인 학술 연구도 세대별 개선을 확인했다. 임상 시나리오 기반 진단 정확도는 GPT-3.5 터보의 74.4%(58/78)에서 GPT-o3의 93.6%(73/78), GPT-5의 91.0%(71/78)로 상승했다
.
가장 까다로운 벤치마크인 HealthBench Professional에서는 의사 전용 버전인 '챗GPT 포 클리니션(ChatGPT for Clinicians)'의 GPT-5.4 시스템이 59.0점을 기록하며 인간 의사 기준선인 43.7점을 크게 앞질렀다(p = 3.7 × 10⁻¹⁰) . 특히 문서 작성 업무에서는 인간 의사 점수(32.1)의 약 2배인 64.1점을 기록했다
.
네이처(Nature, 2025)에 발표된 광범위한 메타 분석에 따르면, 생성형 AI 모델과 일반 의사 간의 진단 정확도에는 통계적으로 유의미한 차이가 없었다(의사가 9.9% 더 정확했지만 p = 0.10). 다만 AI는 전문의보다는 유의미하게 뒤처졌다(정확도 차이 15.8%, p = 0.007) . 요약하자면, 최첨단 AI는 일반 진단에서 일반의와 비슷한 수준이지만, 전문의를 따라잡지는 못했다.
NEJM AI에 게재된 동료심사 연구에서 보스턴 아동병원 맨턴 센터(Manton Center), 하버드 대학교, 오픈AI 연구진은 o3 딥 리서치(Deep Research) 추론 모델을 사용하여 이전에 해결되지 않은 소아 희귀질환 사례 376건을 재분석했다 . 이 시스템은 임상 특징, 유전 패턴, 과학 문헌을 연결하여 진단 가설을 생성했다. 그 결과 18명의 어린이에 대한 새로운 진단을 성공적으로 찾아냈다. 이는 신경 발달 장애 10건, 신경근 장애 4건, 돌연사 2건, 조기 아동기 정신병 2건을 포함한다
. 약 5%의 진단률은 인간 전문가가 철저히 분석한 유전체였다는 점에서 연구진이 '완전한 게임 체인저'라고 평가할 만한 성과였다
.
또한 보스턴 아동병원의 조직 전반 AI 통합은 이전에 진단되지 않았던 40개 이상의 희귀 질환을 진단하고, 연간 6만 시간(약 700만 달러 상당 인력 재배치)을 절약하며, 진료 접근성을 확대하는 데 기여했다 .
오픈AI는 2026년 세 가지 의료 제품을 출시했다.
오픈AI의 2026년 의료 진출은 실질적이며 실제 결과로 뒷받침된다. 의료 환각 52.5% 감소부터 새롭게 해결된 희귀질환 18건까지. 회사는 소비자 교육, 무료 임상 도구, 기업 배치라는 명확한 3단계 전략을 구축했다. 주의할 점도 있다. 오픈AI의 벤치마크는 자체 평가이며, Nature 메타분석은 AI가 여전히 전문의보다 뒤처짐을 확인했다. 그러나 일상적인 건강 질문과 임상 지원 업무에 있어 GPT-5.5 인스턴트는 더 이상 장난감이 아닌, 진정으로 유용한 도구가 되었음은 분명해 보인다.
Comments
0 comments