OpenAI 話 GPT-5.5 Instant 喺醫療問題上嘅表現已經同佢哋嘅頂尖 Thinking 模型睇齊,而且喺 HealthBench 同 HealthBench Professional 兩個測試上都高過 GPT-5.3 Instant 。獨立學術研究亦證實咗呢個趨勢:臨床病例診斷準確率由 GPT-3.5 Turbo 嘅 74.4%(58/78)升至 GPT-o3 嘅 93.6%(73/78)同 GPT-5 嘅 91.0%(71/78)
。
喺最嚴格嘅 HealthBench Professional 測試中,專為臨床醫生而設嘅 GPT-5.4 系統得到 59.0 分,遠遠超過人類醫生嘅基準 43.7 分(p = 3.7 × 10⁻¹⁰)。特別係撰寫文件嘅任務,AI 嘅表現幾乎係醫生嘅 2 倍(64.1 對 32.1)
。
不過,一篇發表喺《自然》期刊嘅 2025 年綜合分析就發現,生成式 AI 同醫生喺診斷任務上整體冇統計上嘅顯著差異——醫生準確率高 9.9%,但 p 值係 0.10,唔算顯著 。但 AI 同專家醫生比較就差好遠(準確率差距 15.8%,p = 0.007)
。簡單講:頂尖 AI 同一般醫生嘅診斷能力差唔多,但仲未夠專家醫生鬥。
喺一篇發表喺《NEJM AI》嘅同儕評審研究中,波士頓兒童醫院 Manton Center、哈佛大學同 OpenAI 嘅研究人員用 o3 Deep Research 推理模型重新分析咗 376 個之前無法診斷嘅兒童罕見病個案 。呢個系統會結合臨床特徵、遺傳模式同科學文獻嚟產生診斷假設。結果成功為 18 個細路 確診,涵蓋四種疾病範疇——10 個神經發育障礙、4 個神經肌肉疾病、2 個突然死亡個案同 2 個早期兒童精神病案例
。診斷率接近 5%,研究人員話呢個係「徹底嘅遊戲規則改變者」,因為呢啲基因組已經俾人類專家徹底分析過
。
另外,波士頓兒童醫院全面整合 AI 之後,已經協助診斷咗 超過 40 種 之前無法解決嘅罕見病,每年節省 60,000 個工時(相當於 700 萬美元嘅勞動力成本),同時降低營運成本並擴大醫療服務範圍 。
OpenAI 喺 2026 年推出咗三個唔同嘅醫療產品:
ChatGPT Health(2026 年 1 月 7 日推出)—— 消費者功能,用户可以查詢健康資訊、上載醫療文件,同安全連接 Apple Health、MyFitnessPal 等健康應用程式。OpenAI 明確表示呢個功能唔係用嚟診斷或治療 。
OpenAI for Healthcare(2026 年 1 月 8 日推出)—— 企業級、符合 HIPAA 嘅產品,提供 GPT-5 驅動嘅工具俾醫療機構用。推出時已經有 AdventHealth、Baylor Scott & White Health、波士頓兒童醫院、Cedars-Sinai Medical Center、HCA Healthcare、Memorial Sloan Kettering Cancer Center、Stanford Medicine Children's Health 同 UCSF 等大型客戶 。
ChatGPT for Clinicians(2026 年 4 月 22 日推出)—— 免費嘅專業版本,專為美國註冊嘅醫生、執業護士、醫生助理同藥劑師而設。可以幫手總結醫學證據、草擬臨床文件、製作病人教育資料,以及整合臨床指引同研究 。喺 HealthBench Professional 測試中,呢個工具嘅表現顯著超越人類醫生
。
OpenAI 2026 年嘅醫療推廣絕對唔係得個講字——從醫療幻覺減少 52.5% 到成功診斷 18 個罕見病案例,都有實質結果支持。公司建立咗清晰嘅三層策略:消費者教育、免費醫生工具同企業部署。當然我哋都要謹慎——OpenAI 嘅基準測試係內部進行,而《自然》期刊嘅綜合分析亦確認 AI 仍然落後於專家醫生。但證據顯示,對於一般健康問題同臨床支援任務,GPT-5.5 Instant 已經係一個真正有用嘅工具,而唔係只係玩具。
Comments
0 comments