OpenAI 表示,GPT-5.5 Instant 在健康問題上的表現已可與其前沿 Thinking 模型相提並論,並在 HealthBench 和 HealthBench Professional 上取得比 GPT-5.3 Instant 更高的分數 。獨立學術研究也證實了明確的世代進步:在臨床案例診斷準確率上,從 GPT-3.5 Turbo 的 74.4%(58/78)提升至 GPT-o3 的 93.6%(73/78)和 GPT-5 的 91.0%(71/78)
。
在最嚴格的評測 HealthBench Professional 上,專為臨床醫師設計的 GPT-5.4 in ChatGPT for Clinicians 系統獲得 59.0 分,顯著超越人類醫生基線的 43.7 分(p = 3.7 × 10⁻¹⁰)。在撰寫與文件任務上,其表現更是將近醫生基線的 2 倍(64.1 vs. 32.1)
。
一篇發表於《自然》期刊(2025)的綜合分析則顯示,生成式 AI 模型總體與醫生在診斷任務上無統計顯著差異——醫生準確率高 9.9%,但差異未達顯著水準(p = 0.10)。不過,AI 模型仍顯著落後於專家級醫生(準確率差異:15.8%,p = 0.007)
。結論:前沿 AI 在一般診斷上已與一般醫生大致相當,但仍落後於專科醫師。
在一篇發表於《NEJM AI》的同儕審查研究中,來自波士頓兒童醫院 Manton 中心、哈佛大學和 OpenAI 的研究人員,使用 o3 Deep Research 推理模型重新分析了 376 例先前未解的兒童罕見遺傳病例 。該系統連結臨床特徵、遺傳模式和科學文獻,產生診斷假設,並成功為 18 名兒童 找出診斷,涵蓋四個疾病領域——10 例神經發育障礙、4 例神經肌肉疾病、2 例猝死和 2 例兒童早期精神病
。研究人員稱此近 5% 的診斷率為「徹底的遊戲規則改變者」,因為這些患者的基因組先前已經過人類專家徹底分析
。
此外,波士頓兒童醫院更廣泛的 AI 整合已協助診斷 超過 40 種 先前無法解決的罕見疾病,每年節省 60,000 工作小時(相當於 700 萬美元的人力成本),並在降低營運成本同時擴大照護可及性 。
OpenAI 在 2026 年推出了三項不同的健康產品:
ChatGPT Health(2026 年 1 月 7 日)——消費者端功能,用戶可詢問健康話題、上傳醫療文件,並安全連接 Apple Health 和 MyFitnessPal 等健康應用程式。OpenAI 明確指出此功能非設計用於診斷或治療 。
OpenAI for Healthcare(2026 年 1 月 8 日)——符合 HIPAA 規範的企業級產品,為醫療機構提供 GPT-5 驅動工具,首批客戶包括 AdventHealth、Baylor Scott & White Health、波士頓兒童醫院、Cedars-Sinai Medical Center、HCA Healthcare、Memorial Sloan Kettering 癌症中心、Stanford Medicine Children's Health 與 UCSF 。
ChatGPT for Clinicians(2026 年 4 月 22 日)——免費提供給美國驗證醫師、護理師、醫師助理與藥師的專用版本。功能包括摘要醫療證據、草擬臨床文件、生成病患衛教資料,以及整合臨床指引與研究 。在 HealthBench Professional 上,此工具的表現顯著超越人類醫生
。
OpenAI 在 2026 年的醫療領域布局內容紮實,並有實際成果支撐——從醫療幻覺減少 52.5%,到在先前無法解決的病例中找到 18 個新診斷。該公司已建立明確的三層策略:消費者教育、免費臨床工具與企業部署。儘管仍需審慎看待——OpenAI 的評測為內部數據,且《自然》期刊的綜合分析也確認 AI 仍落後專家級醫生——但證據顯示,對於一般健康問題和臨床輔助任務,GPT-5.5 Instant 已不再是玩具,而是真正有用的工具。
Comments
0 comments