OpenAI riferisce che GPT-5.5 Instant ora si comporta in modo comparabile ai suoi modelli Thinking di frontiera sulle domande sulla salute e ottiene punteggi più alti di GPT-5.3 Instant su HealthBench e HealthBench Professional . La ricerca accademica indipendente conferma un chiaro miglioramento generazionale: l'accuratezza diagnostica su scenari clinici è passata dal 74,4% (58/78) per GPT-3.5 Turbo al 93,6% (73/78) per GPT-o3 e al 91,0% (71/78) per GPT-5
.
Sul benchmark più rigoroso, HealthBench Professional, il sistema specializzato GPT-5.4 in ChatGPT per Clinici ha ottenuto un punteggio di 59,0, superando significativamente il valore di riferimento dei medici umani, pari a 43,7 (p = 3,7 × 10⁻¹⁰) . Ha ottenuto risultati quasi 2 volte superiori alla media dei medici nei compiti di scrittura e documentazione (64,1 vs. 32,1)
.
Una meta-analisi più ampia pubblicata su Nature (2025) non ha riscontrato differenze statisticamente significative tra i modelli di IA generativa nel complesso e i medici nei compiti diagnostici — i medici erano più accurati del 9,9%, ma la differenza non era significativa (p = 0,10) . Tuttavia, i modelli di IA erano significativamente inferiori ai medici esperti (differenza di accuratezza: 15,8%, p = 0,007)
. Il messaggio principale: l'IA di frontiera è paragonabile a un medico generico per la diagnostica, ma è ancora in ritardo rispetto agli specialisti.
In uno studio sottoposto a revisione paritaria pubblicato su NEJM AI, ricercatori del Manton Center del Boston Children's Hospital, dell'Università di Harvard e di OpenAI hanno utilizzato il modello di ragionamento o3 Deep Research per rianalizzare 376 casi pediatrici di malattie rare precedentemente irrisolti . Il sistema ha collegato caratteristiche cliniche, modelli di ereditarietà e letteratura scientifica per generare ipotesi diagnostiche. Ha identificato con successo la diagnosi per 18 bambini in quattro aree patologiche: 10 disturbi del neurosviluppo, 4 disturbi neuromuscolari, 2 morti improvvise e 2 casi di psicosi infantile precoce
. Questo ha prodotto un rendimento diagnostico di quasi il 5%, che i ricercatori hanno definito un "punto di svolta totale", dato che questi genomi erano già stati analizzati in modo esaustivo da esperti umani
.
Separatamente, l'integrazione più ampia dell'IA al Boston Children's Hospital ha aiutato a diagnosticare più di 40 condizioni rare che in precedenza erano rimaste senza risposta, ha fatto risparmiare 60.000 ore di lavoro all'anno (equivalenti a 7 milioni di dollari in manodopera riallocata) e ha ridotto i costi operativi, ampliando al contempo l'accesso alle cure .
OpenAI ha lanciato tre prodotti sanitari distinti nel 2026:
ChatGPT Health (7 gennaio 2026) — Una funzione consumer che consente agli utenti di informarsi su argomenti di salute, caricare documenti medici e collegare in modo sicuro app per il benessere come Apple Health e MyFitnessPal. OpenAI dichiara esplicitamente che non è progettata per la diagnosi o il trattamento .
OpenAI for Healthcare (8 gennaio 2026) — Un prodotto aziendale conforme HIPAA che offre strumenti basati su GPT-5 per le organizzazioni sanitarie. È stato lanciato con importanti clienti tra cui AdventHealth, Baylor Scott & White Health, Boston Children's Hospital, Cedars-Sinai Medical Center, HCA Healthcare, Memorial Sloan Kettering Cancer Center, Stanford Medicine Children's Health e UCSF .
ChatGPT for Clinicians (22 aprile 2026) — Una versione specializzata e gratuita per medici, infermieri specializzati, assistenti medici e farmacisti statunitensi verificati. Aiuta a riassumere evidenze mediche, redigere documentazione clinica, generare materiali educativi per i pazienti e integrare linee guida cliniche e ricerche . Su HealthBench Professional, questo strumento ha superato significativamente le prestazioni dei medici umani
.
Un quarto aggiornamento del modello, GPT-Rosalind (giugno 2026), ha combinato la codifica agentica di GPT-5.5 con una maggiore intelligenza scientifica per i flussi di lavoro di ricerca biomedica .
L'offensiva sanitaria di OpenAI nel 2026 è sostanziale e supportata da risultati reali — da un calo del 52,5% delle allucinazioni mediche a 18 nuovi casi di malattie rare risolti. L'azienda ha costruito una chiara strategia a tre livelli: educazione del consumatore, strumenti gratuiti per i medici e implementazione aziendale. Sebbene sia necessario un cauto ottimismo — i benchmark di OpenAI sono interni e la meta-analisi di Nature conferma che l'IA è ancora in ritardo rispetto ai medici esperti — le prove suggeriscono che per le domande sanitarie di routine e le attività di supporto clinico, GPT-5.5 Instant è ora uno strumento genuinamente utile, non più solo un giocattolo.
Comments
0 comments