OpenAI posicionó a GPT-5.6 Sol como una nueva frontera en tres dominios clave: programación, biología y ciberseguridad .
Terminal-Bench 2.1 prueba flujos de trabajo en línea de comandos que requieren planificación de múltiples pasos, coordinación de herramientas e iteración . El benchmark tiene 89 tareas de programación complejas
. Los resultados incluyen:
| Modelo | Puntaje |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (máx.) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra estableció un nuevo estado del arte con un 91.9% . El puntaje estándar de Sol, 88.8%, supera al modelo restringido de Anthropic, Claude Mythos 5, que obtuvo 88.0%, por casi un punto completo
.
En GeneBench v1, un benchmark que evalúa tareas de análisis de genómica y biología cuantitativa a largo plazo, OpenAI informa que Sol logró resultados más fuertes que GPT-5.5 utilizando menos tokens de salida . Esto representa una mejora de eficiencia significativa para los flujos de trabajo de investigación científica.
En ExploitBench, un benchmark de investigación en ciberseguridad, GPT-5.6 Sol casi igualó el rendimiento de Mythos Preview de Anthropic utilizando aproximadamente un tercio de los tokens de salida .
En ExploitGym, un benchmark creado por investigadores de UC Berkeley en colaboración con OpenAI y otros laboratorios de IA de frontera, los tres modelos GPT-5.6 mostraron capacidades de ciberseguridad mejoradas a medida que aumentaba el razonamiento .
Es importante destacar que OpenAI afirma que GPT-5.6 Sol no supera el umbral crítico de ciberseguridad según su Marco de Preparación (Preparedness Framework) . En evaluaciones que involucraron Chromium y Firefox, el modelo identificó errores y primitivas de explotación — los componentes básicos de un exploit — pero no produjo de forma autónoma un exploit funcional de cadena completa bajo las condiciones probadas
. Toda la serie de modelos GPT-5.6 fue clasificada internamente como de riesgo "Alto" (para capacidades de ciberseguridad y biológicas), pero no en el nivel más alto "Crítico"
.
OpenAI dice que GPT-5.6 Sol se lanza con su "pila de seguridad más robusta hasta la fecha" . El enfoque de seguridad incluye:
Durante la vista previa, algunas consultas pueden ralentizarse o bloquearse para una revisión adicional mientras OpenAI ajusta las tasas de falsos positivos y falsos negativos .
El despliegue de GPT-5.6 es diferente a cualquier lanzamiento anterior de OpenAI. A petición del gobierno de EE.UU., OpenAI está limitando inicialmente el acceso a un pequeño grupo de socios y organizaciones de confianza — Axios informó que la vista previa incluye alrededor de 20 empresas aprobadas — mientras el modelo se somete a revisiones adicionales de seguridad nacional .
La vista previa no es un programa de autoservicio amplio. Durante este período, GPT-5.6 Sol, Terra y Luna están disponibles solo a través de la API de OpenAI y Codex para este grupo limitado . Los modelos no están disponibles en ChatGPT durante la vista previa
. OpenAI dice que planea una disponibilidad más amplia en ChatGPT, Codex y la API "en las próximas semanas"
.
OpenAI declaró claramente que ve el enfoque controlado por el gobierno como una medida temporal: "Creemos en el acceso amplio, y este proceso no debería convertirse en el estándar a largo plazo" . En un memorando interno, el CEO Sam Altman dijo al personal que el gobierno "estaría aprobando el acceso cliente por cliente durante este período de vista previa", con la esperanza de un lanzamiento más amplio en un par de semanas
.
Esto surgió de conversaciones con la Oficina del Director Nacional de Ciberseguridad (Office of the National Cyber Director) y la Oficina de Política Científica y Tecnológica (Office of Science and Technology Policy) , lo que refleja un nuevo marco para modelos de frontera que está siendo probado por la administración Trump
.
| Modelo | Entrada / 1M tokens | Salida / 1M tokens |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
El precio de Sol coincide con el de GPT-5.5, mientras que Terra es aproximadamente 2 veces más barato que GPT-5.5 . Para contextualizar, Sol tiene un precio más cercano al de Claude Opus 4.8 ($5/$25) que al de Mythos 5 restringido de Anthropic ($10/$50)
.
OpenAI también anunció que GPT-5.6 Sol se implementará en hardware Cerebras en julio , con velocidades de inferencia de hasta 750 tokens por segundo
.
La familia GPT-5.6 marca un cambio significativo con respecto a los lanzamientos anteriores de OpenAI. El empaquetado de tres niveles (Sol, Terra, Luna) introduce una marca duradera que desacopla la serie de modelos de los niveles de capacidad. Los resultados de los benchmarks — particularmente el puntaje de código de última generación de Sol en Terminal-Bench 2.1 y sus ganancias de eficiencia en ExploitBench — demuestran avances significativos, especialmente en ciberseguridad y biología. Pero la característica más definitoria de este lanzamiento pueden ser las restricciones de acceso requeridas por el gobierno, que representan un nuevo paradigma para el despliegue de IA de frontera.
Comments
0 comments