La pregunta “¿cuál es el benchmark de GPT-5.5?” tiene trampa: no hay una sola nota que resuma todo el modelo. Si hace falta una respuesta corta, la cifra más limpia es 84,9 % en GDPval. OpenAI la publica en su anuncio y define GDPval como una prueba de la capacidad de los agentes para producir trabajo de conocimiento bien especificado en 44 ocupaciones.[1]
La clave está en no leer ese porcentaje como una nota universal de inteligencia. Dice bastante sobre tareas profesionales definidas y producción de entregables de conocimiento; no dice, por sí solo, cómo se comporta el modelo en programación, bioinformática, derecho u otros terrenos especializados.
La cifra que conviene citar primero
La formulación más precisa para una respuesta rápida sería:
Según OpenAI, GPT-5.5 alcanza 84,9 % en GDPval, un benchmark que evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.[
1]
Ese dato funciona bien como punto de partida porque viene directamente de OpenAI y porque el alcance de la prueba está descrito con claridad.[1] Aun así, no conviene mezclarlo sin contexto con otros porcentajes: cada benchmark mide una cosa distinta.
Los valores públicos más citados
| Benchmark o comparación | Valor comunicado | Qué mide | Cómo interpretarlo |
|---|---|---|---|
| GDPval | 84,9 % | Trabajo de conocimiento bien especificado en 44 ocupaciones | Es el dato más directo de OpenAI para una lectura general de GPT-5.5.[ |
| Expert-SWE | 73,1 % | Tareas de programación; el reporte lo describe como una evaluación interna para tareas con un tiempo estimado de resolución de 20 horas | Más relevante para desarrollo de software que GDPval, pero no comparable punto por punto.[ |
| BixBench | 80,5 % | Benchmark de bioinformática en escenarios reales | Útil si el interés es bioinformática; en las fuentes disponibles, el respaldo documental es menos directo que el dato oficial de OpenAI sobre GDPval.[ |
| Artificial Analysis Intelligence Index | 1.er puesto, +3 puntos | Índice externo de comparación entre modelos | Sirve para una visión amplia del mercado de modelos, pero no es un benchmark oficial único de OpenAI.[ |
Por qué no hay que comparar los porcentajes como si fueran el mismo examen
84,9 %, 73,1 % y 80,5 % parecen números de una misma clasificación. No lo son.
- GDPval se centra en trabajo de conocimiento bien especificado a través de 44 ocupaciones.[
1]
- Expert-SWE apunta a tareas de programación en una evaluación interna con trabajos estimados en 20 horas.[
8]
- BixBench se enfoca en bioinformática.[
10]
Por eso, la pregunta útil no es “¿qué porcentaje es más alto?”, sino “¿qué benchmark se parece más a mi caso de uso?”. Para trabajo de conocimiento general, GDPval es la referencia más natural. Para desarrollo de software, Expert-SWE está más cerca del problema. Para bioinformática, BixBench es temáticamente más pertinente.[1][
8][
10]
Qué aporta el índice de Artificial Analysis
Artificial Analysis afirma que GPT-5.5 lidera su Intelligence Index con tres puntos de ventaja.[3] En el mismo análisis, señala que OpenAI encabeza cinco de sus evaluaciones principales y queda por detrás de Gemini 3.1 Pro Preview en otras tres.[
3]
La lectura correcta es esta: estar primero en un índice externo no significa ganar cada prueba individual. Significa que, según la metodología de ese índice, GPT-5.5 queda por delante en el resultado agregado.[3]
Ojo con los titulares que muestran otros porcentajes
También circulan cifras como 91,7 % en relación con capacidades de IA legal o 82,7 % en el contexto de programación agéntica.[4][
5] Pueden ser datos interesantes si el caso de uso coincide exactamente con esa prueba. Para una respuesta general, sin embargo, son menos prácticos si no se explican con el mismo detalle el diseño del test, la comparación y el objetivo de medición.
Entonces, ¿qué número debería citarse?
Si solo hay espacio para una línea, la opción más segura es:
GPT-5.5 obtiene 84,9 % en GDPval, según OpenAI; GDPval evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.[
1]
Si el contexto es más específico, conviene cambiar de referencia:
- Trabajo de conocimiento general: 84,9 % en GDPval.[
1]
- Desarrollo de software: 73,1 % en Expert-SWE.[
8]
- Bioinformática: 80,5 % en BixBench, con cautela sobre la fuente disponible.[
10]
- Comparación amplia entre modelos: primer puesto en el Artificial Analysis Intelligence Index, con tres puntos de ventaja.[
3]
Conclusión
El benchmark corto más defendible para GPT-5.5 es 84,9 % en GDPval.[1] Es el dato publicado directamente por OpenAI y tiene un alcance claro: trabajo de conocimiento bien especificado en 44 ocupaciones.[
1] Las demás cifras no son irrelevantes; simplemente responden a preguntas distintas. La comparación correcta empieza por elegir el benchmark adecuado, no por escoger el porcentaje más alto.




