OpenAI melaporkan bahwa GPT-5.5 Instant kini berkinerja sebanding dengan model Thinking frontier-nya pada pertanyaan kesehatan dan mencetak skor lebih tinggi daripada GPT-5.3 Instant pada HealthBench dan HealthBench Professional . Penelitian akademis independen mengonfirmasi peningkatan generasi yang jelas: akurasi diagnostik pada skenario klinis naik dari 74,4% (58/78) untuk GPT-3.5 Turbo menjadi 93,6% (73/78) untuk GPT-o3 dan 91,0% (71/78) untuk GPT-5
.
Pada tolok ukur yang paling ketat, HealthBench Professional, sistem khusus GPT-5.4 di ChatGPT for Clinicians mencetak skor 59,0, secara signifikan mengungguli baseline dokter manusia sebesar 43,7 (p = 3,7 × 10⁻¹⁰) . Kinerjanya hampir 2× lipat baseline dokter pada tugas penulisan dan dokumentasi (64,1 vs. 32,1)
.
Meta-analisis yang lebih luas yang diterbitkan di Nature (2025) menemukan tidak ada perbedaan signifikan secara statistik antara model AI generatif secara keseluruhan dan dokter pada tugas diagnostik — dokter 9,9% lebih akurat, tetapi perbedaannya tidak signifikan (p = 0,10) . Namun, model AI secara signifikan lebih rendah daripada dokter ahli (perbedaan akurasi: 15,8%, p = 0,007)
. Kesimpulannya: AI frontier secara kasar sebanding dengan dokter umum pada diagnostik, tetapi masih tertinggal dari spesialis.
Dalam studi peer-review yang diterbitkan di NEJM AI, para peneliti dari Manton Center Boston Children's Hospital, Universitas Harvard, dan OpenAI menggunakan model penalaran o3 Deep Research untuk menganalisis ulang 376 kasus penyakit langka pada anak yang sebelumnya tidak terpecahkan . Sistem ini menghubungkan fitur klinis, pola pewarisan, dan literatur ilmiah untuk menghasilkan hipotesis diagnostik. Sistem ini berhasil mengidentifikasi diagnosis untuk 18 anak di empat area penyakit — 10 gangguan perkembangan saraf, 4 gangguan neuromuskuler, 2 kematian mendadak, dan 2 kasus psikosis anak usia dini
. Ini menghasilkan tingkat diagnostik hampir 5%, yang oleh para peneliti disebut sebagai "pengubah permainan total" mengingat genom ini telah dianalisis secara menyeluruh oleh para ahli manusia
.
Secara terpisah, integrasi AI yang lebih luas di Boston Children's di seluruh organisasi telah membantu mendiagnosis lebih dari 40 kondisi langka yang sebelumnya tidak terpecahkan, menghemat 60.000 jam kerja per tahun (setara dengan $7 juta dalam tenaga kerja yang dialihkan), dan mengurangi biaya operasional sambil memperluas akses perawatan .
OpenAI meluncurkan tiga produk kesehatan yang berbeda pada tahun 2026:
ChatGPT Health (7 Januari 2026) — Fitur konsumen yang memungkinkan pengguna menanyakan topik kesehatan, mengunggah dokumen medis, dan menghubungkan aplikasi kesehatan seperti Apple Health dan MyFitnessPal dengan aman. OpenAI secara eksplisit menyatakan bahwa fitur ini tidak dirancang untuk diagnosis atau pengobatan .
OpenAI for Healthcare (8 Januari 2026) — Produk enterprise yang sesuai HIPAA yang menawarkan alat bertenaga GPT-5 untuk organisasi layanan kesehatan. Produk ini diluncurkan dengan pelanggan besar termasuk AdventHealth, Baylor Scott & White Health, Boston Children's Hospital, Cedars-Sinai Medical Center, HCA Healthcare, Memorial Sloan Kettering Cancer Center, Stanford Medicine Children's Health, dan UCSF .
ChatGPT for Clinicians (22 April 2026) — Versi khusus gratis untuk dokter, perawat praktisi, asisten dokter, dan apoteker AS yang terverifikasi. Alat ini membantu merangkum bukti medis, menyusun dokumentasi klinis, menghasilkan materi edukasi pasien, dan mengintegrasikan pedoman klinis serta penelitian . Pada HealthBench Professional, alat ini secara signifikan melebihi kinerja dokter manusia
.
Pembaruan model keempat, GPT-Rosalind (Juni 2026), menggabungkan pengkodean agen GPT-5.5 dengan kecerdasan ilmiah yang ditingkatkan untuk alur kerja penelitian biomedis .
Dorongan kesehatan OpenAI pada tahun 2026 bersifat substansial dan didukung oleh hasil nyata — mulai dari penurunan 52,5% halusinasi medis hingga 18 kasus penyakit langka yang baru terpecahkan. Perusahaan telah membangun strategi tiga tingkat yang jelas: edukasi konsumen, alat klinis gratis, dan penerapan enterprise. Meskipun kewaspadaan tetap diperlukan — tolok ukur OpenAI bersifat internal, dan meta-analisis Nature mengonfirmasi bahwa AI masih tertinggal dari dokter ahli — bukti menunjukkan bahwa untuk pertanyaan kesehatan rutin dan tugas dukungan klinis, GPT-5.5 Instant kini menjadi alat yang benar-benar berguna, bukan sekadar mainan.
Comments
0 comments