OpenAI 报告称,GPT-5.5 Instant 在健康问题上的表现现已与其前沿推理模型相当,且在 HealthBench 和 HealthBench Professional 上的得分均高于 GPT-5.3 Instant 。独立的学术研究证实了明显的代际提升:在临床病例上的诊断准确率从 GPT-3.5 Turbo 的 74.4%(58/78)提升至 GPT-o3 的 93.6%(73/78)和 GPT-5 的 91.0%(71/78)
。
在最严格的基准测试 HealthBench Professional 上,ChatGPT for Clinicians 中的专用 GPT-5.4 系统得分为 59.0,显著优于人类医生的基线得分 43.7(p = 3.7 × 10⁻¹⁰)。在撰写和文档任务上,其表现几乎是人类医生的 2 倍(64.1 比 32.1)
。
一项更广泛的、发表于 Nature(2025 年)的荟萃分析发现,生成式 AI 模型总体上与医生在诊断任务上无统计学显著差异——医生的准确率高 9.9%,但差异不显著(p = 0.10)。然而,AI 模型显著逊于专家级医生(准确率差异:15.8%,p = 0.007)
。结论是:前沿 AI 在诊断能力上大致相当于普通医生,但仍落后于专家。
在一项发表于 NEJM AI 的同行评审研究中,来自波士顿儿童医院 Manton 中心、哈佛大学和 OpenAI 的研究人员使用 o3 Deep Research 推理模型重新分析了 376 例此前未解决的儿科罕见病案例 。该系统整合了临床表现、遗传模式和科学文献,生成了诊断假设。它成功为 18 名儿童 鉴定出了诊断结果,涵盖四个疾病领域——10 例神经发育障碍、4 例神经肌肉疾病、2 例猝死和 2 例儿童早期精神病病例
。这产生了近 5% 的诊断率,研究人员称其为“彻底的规则改变者”,因为这些基因组此前已由人类专家进行了详尽分析
。
另外,波士顿儿童医院在整个组织中更广泛的 AI 整合已帮助诊断了 超过 40 种 此前无法解决的罕见病,每年节省了 60,000 个工作小时(相当于 700 万美元的重新部署劳动力),并在扩大护理可及性的同时降低了运营成本 。
OpenAI 在 2026 年推出了三款不同的医疗产品:
ChatGPT Health(2026 年 1 月 7 日)——一项面向消费者的功能,允许用户咨询健康话题、上传医疗文档并安全连接 Apple Health 和 MyFitnessPal 等健康应用。OpenAI 明确声明其并非为诊断或治疗而设计 。
OpenAI for Healthcare(2026 年 1 月 8 日)——一款面向医疗机构的企业级、符合 HIPAA 标准的产品,提供基于 GPT-5 的工具。其发布时的主要客户包括 AdventHealth、Baylor Scott & White Health、波士顿儿童医院、Cedars-Sinai Medical Center、HCA Healthcare、Memorial Sloan Kettering Cancer Center、Stanford Medicine Children's Health 和 UCSF 。
ChatGPT for Clinicians(2026 年 4 月 22 日)——面向美国认证医生、执业护士、医生助理和药剂师的免费专用版本。它协助总结医学证据、起草临床文档、生成患者教育材料,并整合临床指南和研究 。在 HealthBench Professional 上,该工具的表现显著超过了人类医生
。
OpenAI 在 2026 年的医疗健康布局是实质性的,并得到了真实成果的支持——从医疗幻觉率下降 52.5% 到 18 例新诊断的罕见病案例。该公司已构建了清晰的三大战略:面向消费者的健康教育、免费的临床医生工具以及企业级部署。虽然仍需保持审慎——OpenAI 的基准测试为内部数据,且 Nature 的荟萃分析确认 AI 仍落后于专家医生——但证据表明,对于常规健康问题和临床支持任务,GPT-5.5 Instant 现已成为一个真正有用的工具,而不仅仅是一个玩具。
Comments
0 comments