OpenAI báo cáo rằng GPT-5.5 Instant hiện hoạt động tương đương với các mô hình Thinking tiên tiến nhất của họ về các câu hỏi sức khỏe và đạt điểm cao hơn GPT-5.3 Instant trên HealthBench và HealthBench Professional . Nghiên cứu học thuật độc lập xác nhận sự cải thiện rõ rệt qua các thế hệ: độ chính xác chẩn đoán trên các tình huống lâm sàng tăng từ 74,4% (58/78) đối với GPT-3.5 Turbo lên 93,6% (73/78) đối với GPT-o3 và 91,0% (71/78) đối với GPT-5
.
Trên bài kiểm tra khắt khe nhất, HealthBench Professional, hệ thống GPT-5.4 chuyên dụng trong ChatGPT for Clinicians đạt 59,0 điểm, vượt trội đáng kể so với mức cơ sở của bác sĩ con người là 43,7 (p = 3,7 × 10⁻¹⁰) . Nó hoạt động gần gấp 2 lần bác sĩ con người trong các nhiệm vụ viết lách và tài liệu (64,1 so với 32,1)
.
Một phân tích tổng hợp rộng hơn được công bố trên tạp chí Nature (2025) cho thấy không có sự khác biệt có ý nghĩa thống kê giữa các mô hình AI tổng quát và các bác sĩ về nhiệm vụ chẩn đoán — bác sĩ chính xác hơn 9,9%, nhưng sự khác biệt này không có ý nghĩa thống kê (p = 0,10) . Tuy nhiên, các mô hình AI kém hơn đáng kể so với các bác sĩ chuyên gia (sai khác về độ chính xác: 15,8%, p = 0,007)
. Kết luận: AI tiên tiến ngang ngửa với bác sĩ đa khoa về chẩn đoán, nhưng vẫn kém hơn các chuyên gia.
Trong một nghiên cứu được bình duyệt trên NEJM AI, các nhà nghiên cứu từ Trung tâm Manton của Bệnh viện Nhi Boston, Đại học Harvard và OpenAI đã sử dụng mô hình suy luận o3 Deep Research để phân tích lại 376 ca bệnh hiếm gặp ở trẻ em trước đây chưa có lời giải . Hệ thống kết nối các đặc điểm lâm sàng, kiểu di truyền và tài liệu khoa học để tạo ra các giả thuyết chẩn đoán. Nó đã xác định thành công chẩn đoán cho 18 trẻ em trên bốn lĩnh vực bệnh — 10 rối loạn phát triển thần kinh, 4 rối loạn thần kinh cơ, 2 ca tử vong đột ngột và 2 ca rối loạn tâm thần ở trẻ nhỏ
. Điều này mang lại tỷ lệ chẩn đoán thành công gần 5%, mà các nhà nghiên cứu gọi là "thay đổi hoàn toàn cuộc chơi" vì các bộ gen này đã được các chuyên gia phân tích một cách triệt để trước đó
.
Riêng biệt, việc tích hợp AI rộng rãi hơn của Bệnh viện Nhi Boston trên toàn tổ chức đã giúp chẩn đoán hơn 40 bệnh hiếm gặp trước đây chưa thể giải quyết, tiết kiệm 60.000 giờ làm việc hàng năm (tương đương 7 triệu đô la chi phí nhân công) và giảm chi phí vận hành trong khi mở rộng khả năng tiếp cận chăm sóc .
OpenAI đã ra mắt ba sản phẩm y tế riêng biệt trong năm 2026:
ChatGPT Health (7 tháng 1 năm 2026) — Một tính năng dành cho người tiêu dùng cho phép người dùng hỏi về các chủ đề sức khỏe, tải lên tài liệu y tế và kết nối an toàn các ứng dụng sức khỏe như Apple Health và MyFitnessPal. OpenAI tuyên bố rõ ràng nó không được thiết kế để chẩn đoán hoặc điều trị .
OpenAI for Healthcare (8 tháng 1 năm 2026) — Một sản phẩm dành cho doanh nghiệp, tuân thủ HIPAA, cung cấp các công cụ hỗ trợ GPT-5 cho các tổ chức chăm sóc sức khỏe. Nó ra mắt với các khách hàng lớn bao gồm AdventHealth, Baylor Scott & White Health, Boston Children's Hospital, Cedars-Sinai Medical Center, HCA Healthcare, Memorial Sloan Kettering Cancer Center, Stanford Medicine Children's Health và UCSF .
ChatGPT for Clinicians (22 tháng 4 năm 2026) — Một phiên bản chuyên biệt miễn phí dành cho các bác sĩ, y tá điều dưỡng, trợ lý bác sĩ và dược sĩ đã được xác thực tại Hoa Kỳ. Nó hỗ trợ tóm tắt bằng chứng y tế, soạn thảo tài liệu lâm sàng, tạo tài liệu giáo dục bệnh nhân và tích hợp các hướng dẫn lâm sàng và nghiên cứu . Trên HealthBench Professional, công cụ này vượt trội hơn đáng kể so với hiệu suất của bác sĩ con người
.
Một bản cập nhật mô hình thứ tư, GPT-Rosalind (tháng 6 năm 2026), kết hợp khả năng mã hóa tác nhân của GPT-5.5 với trí tuệ khoa học nâng cao cho các quy trình nghiên cứu y sinh .
Chiến dịch y tế của OpenAI trong năm 2026 là đáng kể và được hỗ trợ bởi các kết quả thực tế — từ việc giảm 52,5% các 'ảo giác' y tế đến 18 ca bệnh hiếm mới được giải. Công ty đã xây dựng một chiến lược ba tầng rõ ràng: giáo dục người tiêu dùng, công cụ miễn phí cho bác sĩ và triển khai doanh nghiệp. Mặc dù cần thận trọng — các điểm chuẩn của OpenAI là nội bộ và phân tích tổng hợp của Nature xác nhận AI vẫn kém hơn các bác sĩ chuyên gia — bằng chứng cho thấy đối với các câu hỏi sức khỏe thông thường và các nhiệm vụ hỗ trợ lâm sàng, GPT-5.5 Instant hiện là một công cụ thực sự hữu ích, không chỉ là một món đồ chơi.
Comments
0 comments