OpenAI informa que GPT-5.5 Instant ahora rinde a un nivel comparable al de sus modelos Thinking de frontera en preguntas de salud, y obtiene puntuaciones más altas que GPT-5.3 Instant en HealthBench y HealthBench Professional . Investigaciones académicas independientes confirman una mejora generacional clara: la precisión diagnóstica en viñetas clínicas pasó del 74.4 % (58/78) para GPT-3.5 Turbo al 93.6 % (73/78) para GPT-o3 y al 91.0 % (71/78) para GPT-5
.
En el referente más riguroso, HealthBench Professional, el sistema especializado GPT-5.4 en ChatGPT para Clínicos obtuvo 59.0 puntos, superando significativamente la línea base de los médicos humanos, que fue de 43.7 (p = 3.7 × 10⁻¹⁰) . En tareas de redacción y documentación, rindió casi el doble que la línea base de los médicos (64.1 frente a 32.1)
.
Un metaanálisis más amplio publicado en Nature (2025) no encontró diferencias estadísticamente significativas entre los modelos de IA generativa y los médicos en tareas de diagnóstico: los médicos fueron un 9.9 % más precisos, pero la diferencia no fue significativa (p = 0.10) . Sin embargo, los modelos de IA fueron significativamente inferiores a los médicos expertos (diferencia en precisión: 15.8 %, p = 0.007)
. La conclusión es que la IA de frontera es aproximadamente comparable a un médico general en diagnósticos, pero aún queda rezagada frente a los especialistas.
En un estudio revisado por pares publicado en NEJM AI, investigadores del Manton Center del Boston Children's Hospital, la Universidad de Harvard y OpenAI utilizaron el modelo de razonamiento o3 Deep Research para reanalizar 376 casos pediátricos de enfermedades raras no resueltos . El sistema conectó las características clínicas, los patrones de herencia y la literatura científica para generar hipótesis diagnósticas. Identificó con éxito diagnósticos para 18 niños en cuatro áreas de enfermedad: 10 trastornos del neurodesarrollo, 4 trastornos neuromusculares, 2 muertes súbitas y 2 casos de psicosis infantil temprana
. Esto supuso un rendimiento diagnóstico de casi el 5 %, que los investigadores calificaron de "cambio de juego total", dado que estos genomas ya habían sido analizados exhaustivamente por expertos humanos
.
Por separado, la integración más amplia de la IA en el Boston Children's Hospital ha ayudado a diagnosticar más de 40 enfermedades raras que antes no tenían solución, ha ahorrado 60.000 horas de trabajo al año (equivalentes a 7 millones de dólares en mano de obra reasignada) y ha reducido los costes operativos a la vez que ha ampliado el acceso a la atención .
OpenAI lanzó tres productos sanitarios distintos en 2026:
ChatGPT Health (7 de enero de 2026): una función para el consumidor que permite a los usuarios preguntar sobre temas de salud, subir documentos médicos y conectar de forma segura aplicaciones de bienestar como Apple Health y MyFitnessPal. OpenAI indica explícitamente que no está diseñado para diagnósticos o tratamientos .
OpenAI for Healthcare (8 de enero de 2026): un producto empresarial compatible con HIPAA que ofrece herramientas basadas en GPT-5 para organizaciones sanitarias. Se lanzó con clientes importantes como AdventHealth, Baylor Scott & White Health, Boston Children's Hospital, Cedars-Sinai Medical Center, HCA Healthcare, Memorial Sloan Kettering Cancer Center, Stanford Medicine Children's Health y UCSF .
ChatGPT for Clinicians (22 de abril de 2026): una versión especializada y gratuita para médicos, enfermeros, asistentes médicos y farmacéuticos verificados de EE. UU. Ayuda a resumir pruebas médicas, redactar documentación clínica, generar material educativo para pacientes e integrar directrices clínicas e investigación . En HealthBench Professional, esta herramienta superó significativamente el rendimiento de los médicos humanos
.
Una cuarta actualización del modelo, GPT-Rosalind (junio de 2026), combinó la codificación agente de GPT-5.5 con una inteligencia científica mejorada para flujos de trabajo de investigación biomédica .
La apuesta de OpenAI por la salud en 2026 es contundente y está respaldada por resultados reales: desde una reducción del 52.5 % en las alucinaciones médicas hasta 18 nuevos casos de enfermedades raras resueltos. La compañía ha construido una estrategia clara de tres niveles: educación del consumidor, herramientas gratuitas para clínicos e implantación empresarial. Aunque es necesario ser prudentes (los referentes de OpenAI son internos y el metaanálisis de Nature confirma que la IA aún va por detrás de los médicos expertos), la evidencia sugiere que, para preguntas rutinarias de salud y tareas de apoyo clínico, GPT-5.5 Instant es ahora una herramienta genuinamente útil, y no solo un juguete.
Comments
0 comments