OpenAIによると、GPT-5.5 Instantは現在、健康関連の質問において最先端のThinkingモデルと同等のパフォーマンスを発揮し、HealthBenchおよびHealthBench ProfessionalにおいてGPT-5.3 Instantよりも高いスコアを達成している。独立した学術研究でも明確な世代間改善が確認されており、臨床シナリオにおける診断精度はGPT-3.5 Turboの74.4%(58/78)から、GPT-o3の93.6%(73/78)、GPT-5の91.0%(71/78)へと向上した
。
最も厳格なベンチマークであるHealthBench Professionalでは、専門化されたGPT-5.4搭載のChatGPT for Cliniciansシステムが59.0を記録し、人間の医師ベースラインの43.7を有意に上回った(p = 3.7 × 10⁻¹⁰)。特に文書作成タスクでは医師ベースラインの約2倍のスコア(64.1 vs. 32.1)を記録した
。
2025年に『Nature』に掲載された大規模メタアナリシスでは、生成AIモデル全体と医師の診断タスクにおける統計的に有意な差は見られなかった(医師の精度が9.9%高いものの、p = 0.10で有意差なし)。しかし、AIモデルは専門医と比較すると有意に劣っていた(精度差15.8%、p = 0.007)
。結論として、最先端のAIは一般医と同等の診断能力を持つが、専門医には及ばない。
ピアレビュー誌『NEJM AI』に掲載された研究で、ボストン小児病院マントンセンター、ハーバード大学、OpenAIの研究者らは、o3 Deep Research推論モデルを使用して、これまで未解決だった376の小児希少疾患症例を再分析した。このシステムは、臨床的特徴、遺伝パターン、科学文献を結びつけて診断仮説を生成。その結果、4つの疾患領域(神経発達障害10例、神経筋障害4例、突然死2例、幼児期精神病2例)で18人の子どもの診断を特定することに成功した
。これは、これらのゲノムがすでに人間の専門家によって徹底的に分析されていたことを考慮すると、約5%の診断率であり、研究者らは「完全なるゲームチェンジャー」と評価している
。
さらに、ボストン小児病院全体のAI統合は、これまで未解決だった40以上の希少疾患の診断に貢献し、年間6万時間の業務時間削減(再配置労働力として700万ドル相当)を実現し、運用コストを削減しながらケアへのアクセスを拡大した。
OpenAIは2026年に3つの異なる医療製品を発表した。
ChatGPT Health(2026年1月7日) — 消費者向け機能。健康トピックについて質問したり、医療文書をアップロードしたり、Apple HealthやMyFitnessPalなどのウェルネスアプリと安全に連携できる。OpenAIは診断や治療を目的としたものではないと明言している。
OpenAI for Healthcare(2026年1月8日) — 医療機関向けエンタープライズ製品。HIPAAに準拠し、GPT-5を搭載したツールを提供。AdventHealth、Baylor Scott & White Health、Boston Children's Hospital、Cedars-Sinai Medical Center、HCA Healthcare、Memorial Sloan Kettering Cancer Center、Stanford Medicine Children's Health、UCSFなどの主要医療機関が導入している。
ChatGPT for Clinicians(2026年4月22日) — 米国の認証を受けた医師、ナースプラクティショナー、医師助手、薬剤師向けの無料専門版。医学的エビデンスの要約、臨床文書の作成、患者教育資料の生成、臨床ガイドラインや研究の統合を支援する。HealthBench Professionalでは、人間の医師のパフォーマンスを有意に上回った
。
4番目のモデルアップデートとして、GPT-Rosalind(2026年6月)が発表された。これはGPT-5.5のエージェント型コーディング能力と、生物学・医学研究ワークフロー向けの科学知能を組み合わせたものだ。
OpenAIの2026年の医療分野への取り組みは、医療ハルシネーションの52.5%減少から18の新たな希少疾患診断に至るまで、実質的かつ成果を伴っている。同社は、消費者教育、無料の臨床医ツール、エンタープライズ展開という明確な3層戦略を構築した。OpenAIのベンチマークは社内評価であり、NatureのメタアナリシスがAIが専門医に劣ることを確認している点など、注意は必要だ。しかし、日常的な健康相談や臨床サポートタスクにおいて、GPT-5.5 Instantは単なるおもちゃではなく、真に有用なツールになりつつあることをエビデンスは示している。
Comments
0 comments