RespuestasPublicado29 abr 2026Last edited 6 may 20266 fuentes

GPT-5.5 y sus benchmarks: por qué el 84,9 % en GDPval no cuenta toda la historia

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1] Otros valores, como 73,1 % en Expert SWE o 80,5 % en BixBench, miden áreas distintas y no deberían compararse directamente con GDPval.[8]...

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

16K0

Abstrakte KI-Illustration zu GPT-5.5-Benchmarks und dem GDPval-Wert von 84,9 Prozent — GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeutenKI-generierte Illustration zum Vergleich von GPT-5.5-Benchmarks.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeuten. Article summary: Für eine knappe, belastbare Einordnung ist 84,9 % auf GDPval der beste GPT 5.5 Wert: OpenAI nennt ihn selbst und beschreibt GDPval als Test für klar spezifizierte Wissensarbeit über 44 Berufe.. Topic tags: ai, openai, chatgpt, gpt 5, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "![Image 1](https://cdn.sanity.io/images/6vfeftx9/articles/9052d745e6337cd4369bde9219bcf511bebec944-4644x1551.png?w=1200&auto=format) GPT-5.5 tops the Artificial Analysis Intelligen" source context "OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis" Reference image 2: visual subject "![Image 1](https://cdn.sanity.io/images/6vfeftx9/articles/9052d745e6337cd4369bde9219bcf511bebec944-4644x1551.png?
openai.com

La pregunta “¿cuál es el benchmark de GPT-5.5?” tiene trampa: no hay una sola nota que resuma todo el modelo. Si hace falta una respuesta corta, la cifra más limpia es 84,9 % en GDPval. OpenAI la publica en su anuncio y define GDPval como una prueba de la capacidad de los agentes para producir trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

La clave está en no leer ese porcentaje como una nota universal de inteligencia. Dice bastante sobre tareas profesionales definidas y producción de entregables de conocimiento; no dice, por sí solo, cómo se comporta el modelo en programación, bioinformática, derecho u otros terrenos especializados.

La cifra que conviene citar primero

La formulación más precisa para una respuesta rápida sería:

Según OpenAI, GPT-5.5 alcanza 84,9 % en GDPval, un benchmark que evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

Ese dato funciona bien como punto de partida porque viene directamente de OpenAI y porque el alcance de la prueba está descrito con claridad.^[1] Aun así, no conviene mezclarlo sin contexto con otros porcentajes: cada benchmark mide una cosa distinta.

Los valores públicos más citados

Benchmark o comparación	Valor comunicado	Qué mide	Cómo interpretarlo
GDPval	84,9 %	Trabajo de conocimiento bien especificado en 44 ocupaciones	Es el dato más directo de OpenAI para una lectura general de GPT-5.5.^[1]
Expert-SWE	73,1 %	Tareas de programación; el reporte lo describe como una evaluación interna para tareas con un tiempo estimado de resolución de 20 horas	Más relevante para desarrollo de software que GDPval, pero no comparable punto por punto.^[8]
BixBench	80,5 %	Benchmark de bioinformática en escenarios reales	Útil si el interés es bioinformática; en las fuentes disponibles, el respaldo documental es menos directo que el dato oficial de OpenAI sobre GDPval.^[10]^[1]
Artificial Analysis Intelligence Index	1.er puesto, +3 puntos	Índice externo de comparación entre modelos	Sirve para una visión amplia del mercado de modelos, pero no es un benchmark oficial único de OpenAI.^[3]

Por qué no hay que comparar los porcentajes como si fueran el mismo examen

84,9 %, 73,1 % y 80,5 % parecen números de una misma clasificación. No lo son.

GDPval se centra en trabajo de conocimiento bien especificado a través de 44 ocupaciones.^[1]
Expert-SWE apunta a tareas de programación en una evaluación interna con trabajos estimados en 20 horas.^[8]
BixBench se enfoca en bioinformática.^[10]

Por eso, la pregunta útil no es “¿qué porcentaje es más alto?”, sino “¿qué benchmark se parece más a mi caso de uso?”. Para trabajo de conocimiento general, GDPval es la referencia más natural. Para desarrollo de software, Expert-SWE está más cerca del problema. Para bioinformática, BixBench es temáticamente más pertinente.^[1]^[8]^[10]

Qué aporta el índice de Artificial Analysis

Artificial Analysis afirma que GPT-5.5 lidera su Intelligence Index con tres puntos de ventaja.^[3] En el mismo análisis, señala que OpenAI encabeza cinco de sus evaluaciones principales y queda por detrás de Gemini 3.1 Pro Preview en otras tres.^[3]

La lectura correcta es esta: estar primero en un índice externo no significa ganar cada prueba individual. Significa que, según la metodología de ese índice, GPT-5.5 queda por delante en el resultado agregado.^[3]

Ojo con los titulares que muestran otros porcentajes

También circulan cifras como 91,7 % en relación con capacidades de IA legal o 82,7 % en el contexto de programación agéntica.^[4]^[5] Pueden ser datos interesantes si el caso de uso coincide exactamente con esa prueba. Para una respuesta general, sin embargo, son menos prácticos si no se explican con el mismo detalle el diseño del test, la comparación y el objetivo de medición.

Entonces, ¿qué número debería citarse?

Si solo hay espacio para una línea, la opción más segura es:

GPT-5.5 obtiene 84,9 % en GDPval, según OpenAI; GDPval evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

Si el contexto es más específico, conviene cambiar de referencia:

Trabajo de conocimiento general: 84,9 % en GDPval.^[1]
Desarrollo de software: 73,1 % en Expert-SWE.^[8]
Bioinformática: 80,5 % en BixBench, con cautela sobre la fuente disponible.^[10]
Comparación amplia entre modelos: primer puesto en el Artificial Analysis Intelligence Index, con tres puntos de ventaja.^[3]

Conclusión

El benchmark corto más defendible para GPT-5.5 es 84,9 % en GDPval.^[1] Es el dato publicado directamente por OpenAI y tiene un alcance claro: trabajo de conocimiento bien especificado en 44 ocupaciones.^[1] Las demás cifras no son irrelevantes; simplemente responden a preguntas distintas. La comparación correcta empieza por elegir el benchmark adecuado, no por escoger el porcentaje más alto.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1]
Otros valores, como 73,1 % en Expert SWE o 80,5 % en BixBench, miden áreas distintas y no deberían compararse directamente con GDPval.[8][10]
Para una comparación externa más amplia, Artificial Analysis sitúa a GPT 5.5 al frente de su Intelligence Index con tres puntos de ventaja, aunque no gana todas las evaluaciones individuales.[3]

La gente también pregunta

¿Cuál es la respuesta corta a "GPT-5.5 y sus benchmarks: por qué el 84,9 % en GDPval no cuenta toda la historia"?

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1]

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Para una comparación externa más amplia, Artificial Analysis sitúa a GPT 5.5 al frente de su Intelligence Index con tres puntos de ventaja, aunque no gana todas las evaluaciones individuales.[3]

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Lenguaje recibido y vocabulario infantil: qué dice la evidencia

Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde

No basta con hablar más: las respuestas adultas también se asocian con el lenguaje infantil

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: cómo Anthropic usa IA para revisar vulnerabilidades en código empresarial

Claude Security: la beta de Anthropic que escanea código empresarial con IA

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 millón de contexto y precios agresivos para el pulso de xAI en modelos y voz

Grok 4.3 API: 1 millón de contexto, tokens más baratos y la ambición de xAI en voz

Conversación de investigación

Tú25 abr 2026

Pregunta de investigación

Was ist der Benchmark von GPT-5.5?

Studio Global AI25 abr 202610 fuentes

Respuesta citada

„Den“ einen Benchmark gibt es nicht — GPT-5.5 wird auf mehreren Benchmarks berichtet. Laut OpenAI erzielt GPT-5.5 unter anderem 84,9 % auf GDPval; weitere öffentlich genannte Werte sind z. B. 73,1 % auf Expert-SWE und 80,5 % auf BixBench.^[1]^[8]^[10]

Offiziell am belastbarsten ist die OpenAI-Ankündigung; dort wird GDPval mit 84,9 % genannt.^[1]
In den Suchergebnissen werden außerdem Coding- und Forschungs-Benchmarks genannt, etwa 73,1 % auf Expert-SWE und 80,5 % auf BixBench, aber diese Werte stammen in den vorliegenden Treffern nicht direkt aus der offiziellen OpenAI-Seite.^[8]^[10]
Wenn du nach einem Vergleich suchst: Ein Drittanbieter ordnet GPT-5.5 im „Artificial Analysis Intelligence Index“ auf Platz 1 ein, aber das ist ein externer Meta-Benchmark, nicht der offizielle OpenAI-Hauptwert.^[3]
Wenn du willst, kann ich dir als Nächstes
1. die offiziellen GPT-5.5-Benchmarks sauber tabellarisch zusammenstellen oder
2. GPT-5.5 direkt mit GPT-4.1, Claude oder Gemini vergleichen.^[1]^[3]

Fuentes

[1] Introducing GPT-5.5 - OpenAIopenai.com
OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. We are deploying industry-leading safeguards for this level of cyber capability. We first introduced cyber-specific safeguards wi...
[3] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Artificial Analysis. Artificial Analysis. GPT-5.5 tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on t...
[4] OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score | MEXC Newsmexc.com
Timothy Morano Apr 23, 2026 18:49 OpenAI’s GPT-5.5 debutsThe post OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score appeared on BitcoinEthereumNews.com. The post OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score appeared on BitcoinEthereumNews.com. Ti...
[5] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
These companies are building it that way](/ next/image?url=https%3A%2F%2Fcms.interestingengineering.com%2Fwp-content%2Fuploads%2F2026%2F04%2FUntitled-1 1b60f5.jpg&w=3840&q=75)](/transportation/rv-energy-solar-power-lithium-battery). These companies are buil...
[8] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com
GPT-5.5 scored 73.1% on Expert-SWE, the company's internal evaluation for coding tasks with an estimated 20-hour completion time. OpenAI reports
[10] OpenAI Releases GPT-5.5 With State-of-the-Art Scores on Coding, Science, and Computer Uselinkedin.com
On BixBench, a real-world bioinformatics benchmark, GPT-5.5 reaches 80.5%, up from 74.0%. Two researcher accounts published alongside the model

Tendencias en Descubrir

RespuestasPublicado29 abr 2026Last edited 6 may 20266 fuentes

GPT-5.5 y sus benchmarks: por qué el 84,9 % en GDPval no cuenta toda la historia

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

16K0

La cifra que conviene citar primero

La formulación más precisa para una respuesta rápida sería:

Según OpenAI, GPT-5.5 alcanza 84,9 % en GDPval, un benchmark que evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

Los valores públicos más citados

Benchmark o comparación	Valor comunicado	Qué mide	Cómo interpretarlo
GDPval	84,9 %	Trabajo de conocimiento bien especificado en 44 ocupaciones	Es el dato más directo de OpenAI para una lectura general de GPT-5.5.^[1]
Expert-SWE	73,1 %	Tareas de programación; el reporte lo describe como una evaluación interna para tareas con un tiempo estimado de resolución de 20 horas	Más relevante para desarrollo de software que GDPval, pero no comparable punto por punto.^[8]
BixBench	80,5 %	Benchmark de bioinformática en escenarios reales	Útil si el interés es bioinformática; en las fuentes disponibles, el respaldo documental es menos directo que el dato oficial de OpenAI sobre GDPval.^[10]^[1]
Artificial Analysis Intelligence Index	1.er puesto, +3 puntos	Índice externo de comparación entre modelos	Sirve para una visión amplia del mercado de modelos, pero no es un benchmark oficial único de OpenAI.^[3]

Por qué no hay que comparar los porcentajes como si fueran el mismo examen

84,9 %, 73,1 % y 80,5 % parecen números de una misma clasificación. No lo son.

GDPval se centra en trabajo de conocimiento bien especificado a través de 44 ocupaciones.^[1]
Expert-SWE apunta a tareas de programación en una evaluación interna con trabajos estimados en 20 horas.^[8]
BixBench se enfoca en bioinformática.^[10]

Qué aporta el índice de Artificial Analysis

Ojo con los titulares que muestran otros porcentajes

Entonces, ¿qué número debería citarse?

Si solo hay espacio para una línea, la opción más segura es:

GPT-5.5 obtiene 84,9 % en GDPval, según OpenAI; GDPval evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

Si el contexto es más específico, conviene cambiar de referencia:

Trabajo de conocimiento general: 84,9 % en GDPval.^[1]
Desarrollo de software: 73,1 % en Expert-SWE.^[8]
Bioinformática: 80,5 % en BixBench, con cautela sobre la fuente disponible.^[10]
Comparación amplia entre modelos: primer puesto en el Artificial Analysis Intelligence Index, con tres puntos de ventaja.^[3]

Conclusión

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1]
Otros valores, como 73,1 % en Expert SWE o 80,5 % en BixBench, miden áreas distintas y no deberían compararse directamente con GDPval.[8][10]
Para una comparación externa más amplia, Artificial Analysis sitúa a GPT 5.5 al frente de su Intelligence Index con tres puntos de ventaja, aunque no gana todas las evaluaciones individuales.[3]

La gente también pregunta

¿Cuál es la respuesta corta a "GPT-5.5 y sus benchmarks: por qué el 84,9 % en GDPval no cuenta toda la historia"?

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1]

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Para una comparación externa más amplia, Artificial Analysis sitúa a GPT 5.5 al frente de su Intelligence Index con tres puntos de ventaja, aunque no gana todas las evaluaciones individuales.[3]

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Lenguaje recibido y vocabulario infantil: qué dice la evidencia

Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde

No basta con hablar más: las respuestas adultas también se asocian con el lenguaje infantil

Claude Security: cómo Anthropic usa IA para revisar vulnerabilidades en código empresarial

Claude Security: la beta de Anthropic que escanea código empresarial con IA

Grok 4.3 API: 1 millón de contexto y precios agresivos para el pulso de xAI en modelos y voz

Grok 4.3 API: 1 millón de contexto, tokens más baratos y la ambición de xAI en voz

Conversación de investigación

Tú25 abr 2026

Pregunta de investigación

Was ist der Benchmark von GPT-5.5?

Studio Global AI25 abr 202610 fuentes

Respuesta citada

Offiziell am belastbarsten ist die OpenAI-Ankündigung; dort wird GDPval mit 84,9 % genannt.^[1]
In den Suchergebnissen werden außerdem Coding- und Forschungs-Benchmarks genannt, etwa 73,1 % auf Expert-SWE und 80,5 % auf BixBench, aber diese Werte stammen in den vorliegenden Treffern nicht direkt aus der offiziellen OpenAI-Seite.^[8]^[10]
Wenn du nach einem Vergleich suchst: Ein Drittanbieter ordnet GPT-5.5 im „Artificial Analysis Intelligence Index“ auf Platz 1 ein, aber das ist ein externer Meta-Benchmark, nicht der offizielle OpenAI-Hauptwert.^[3]
Wenn du willst, kann ich dir als Nächstes
1. die offiziellen GPT-5.5-Benchmarks sauber tabellarisch zusammenstellen oder
2. GPT-5.5 direkt mit GPT-4.1, Claude oder Gemini vergleichen.^[1]^[3]

Fuentes

[1] Introducing GPT-5.5 - OpenAIopenai.com
OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. We are deploying industry-leading safeguards for this level of cyber capability. We first introduced cyber-specific safeguards wi...
[3] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Artificial Analysis. Artificial Analysis. GPT-5.5 tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on t...
[4] OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score | MEXC Newsmexc.com
Timothy Morano Apr 23, 2026 18:49 OpenAI’s GPT-5.5 debutsThe post OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score appeared on BitcoinEthereumNews.com. The post OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score appeared on BitcoinEthereumNews.com. Ti...
[5] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
These companies are building it that way](/ next/image?url=https%3A%2F%2Fcms.interestingengineering.com%2Fwp-content%2Fuploads%2F2026%2F04%2FUntitled-1 1b60f5.jpg&w=3840&q=75)](/transportation/rv-energy-solar-power-lithium-battery). These companies are buil...
[8] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com
GPT-5.5 scored 73.1% on Expert-SWE, the company's internal evaluation for coding tasks with an estimated 20-hour completion time. OpenAI reports
[10] OpenAI Releases GPT-5.5 With State-of-the-Art Scores on Coding, Science, and Computer Uselinkedin.com
On BixBench, a real-world bioinformatics benchmark, GPT-5.5 reaches 80.5%, up from 74.0%. Two researcher accounts published alongside the model

Tendencias en Descubrir

RespuestasPublicado29 abr 2026Last edited 6 may 20266 fuentes

GPT-5.5 y sus benchmarks: por qué el 84,9 % en GDPval no cuenta toda la historia

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

16K0

La cifra que conviene citar primero

La formulación más precisa para una respuesta rápida sería:

Según OpenAI, GPT-5.5 alcanza 84,9 % en GDPval, un benchmark que evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

Los valores públicos más citados

Benchmark o comparación	Valor comunicado	Qué mide	Cómo interpretarlo
GDPval	84,9 %	Trabajo de conocimiento bien especificado en 44 ocupaciones	Es el dato más directo de OpenAI para una lectura general de GPT-5.5.^[1]
Expert-SWE	73,1 %	Tareas de programación; el reporte lo describe como una evaluación interna para tareas con un tiempo estimado de resolución de 20 horas	Más relevante para desarrollo de software que GDPval, pero no comparable punto por punto.^[8]
BixBench	80,5 %	Benchmark de bioinformática en escenarios reales	Útil si el interés es bioinformática; en las fuentes disponibles, el respaldo documental es menos directo que el dato oficial de OpenAI sobre GDPval.^[10]^[1]
Artificial Analysis Intelligence Index	1.er puesto, +3 puntos	Índice externo de comparación entre modelos	Sirve para una visión amplia del mercado de modelos, pero no es un benchmark oficial único de OpenAI.^[3]

Por qué no hay que comparar los porcentajes como si fueran el mismo examen

84,9 %, 73,1 % y 80,5 % parecen números de una misma clasificación. No lo son.

GDPval se centra en trabajo de conocimiento bien especificado a través de 44 ocupaciones.^[1]
Expert-SWE apunta a tareas de programación en una evaluación interna con trabajos estimados en 20 horas.^[8]
BixBench se enfoca en bioinformática.^[10]

Qué aporta el índice de Artificial Analysis

Ojo con los titulares que muestran otros porcentajes

Entonces, ¿qué número debería citarse?

Si solo hay espacio para una línea, la opción más segura es:

GPT-5.5 obtiene 84,9 % en GDPval, según OpenAI; GDPval evalúa la producción de trabajo de conocimiento bien especificado en 44 ocupaciones.^[1]

Si el contexto es más específico, conviene cambiar de referencia:

Trabajo de conocimiento general: 84,9 % en GDPval.^[1]
Desarrollo de software: 73,1 % en Expert-SWE.^[8]
Bioinformática: 80,5 % en BixBench, con cautela sobre la fuente disponible.^[10]
Comparación amplia entre modelos: primer puesto en el Artificial Analysis Intelligence Index, con tres puntos de ventaja.^[3]

Conclusión

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1]
Otros valores, como 73,1 % en Expert SWE o 80,5 % en BixBench, miden áreas distintas y no deberían compararse directamente con GDPval.[8][10]
Para una comparación externa más amplia, Artificial Analysis sitúa a GPT 5.5 al frente de su Intelligence Index con tres puntos de ventaja, aunque no gana todas las evaluaciones individuales.[3]

La gente también pregunta

¿Cuál es la respuesta corta a "GPT-5.5 y sus benchmarks: por qué el 84,9 % en GDPval no cuenta toda la historia"?

La cifra más clara para resumir GPT 5.5 es 84,9 % en GDPval: OpenAI la publica y describe GDPval como una prueba de trabajo de conocimiento bien especificado en 44 ocupaciones.[1]

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Para una comparación externa más amplia, Artificial Analysis sitúa a GPT 5.5 al frente de su Intelligence Index con tres puntos de ventaja, aunque no gana todas las evaluaciones individuales.[3]

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Conversación de investigación

Tú25 abr 2026

Pregunta de investigación

Was ist der Benchmark von GPT-5.5?

Studio Global AI25 abr 202610 fuentes

Respuesta citada

Offiziell am belastbarsten ist die OpenAI-Ankündigung; dort wird GDPval mit 84,9 % genannt.^[1]
In den Suchergebnissen werden außerdem Coding- und Forschungs-Benchmarks genannt, etwa 73,1 % auf Expert-SWE und 80,5 % auf BixBench, aber diese Werte stammen in den vorliegenden Treffern nicht direkt aus der offiziellen OpenAI-Seite.^[8]^[10]
Wenn du nach einem Vergleich suchst: Ein Drittanbieter ordnet GPT-5.5 im „Artificial Analysis Intelligence Index“ auf Platz 1 ein, aber das ist ein externer Meta-Benchmark, nicht der offizielle OpenAI-Hauptwert.^[3]
Wenn du willst, kann ich dir als Nächstes
1. die offiziellen GPT-5.5-Benchmarks sauber tabellarisch zusammenstellen oder
2. GPT-5.5 direkt mit GPT-4.1, Claude oder Gemini vergleichen.^[1]^[3]

Fuentes

[1] Introducing GPT-5.5 - OpenAIopenai.com
OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. We are deploying industry-leading safeguards for this level of cyber capability. We first introduced cyber-specific safeguards wi...
[3] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Artificial Analysis. Artificial Analysis. GPT-5.5 tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on t...
[4] OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score | MEXC Newsmexc.com
Timothy Morano Apr 23, 2026 18:49 OpenAI’s GPT-5.5 debutsThe post OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score appeared on BitcoinEthereumNews.com. The post OpenAI’s GPT-5.5 Launches With 91.7% Benchmark Score appeared on BitcoinEthereumNews.com. Ti...
[5] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
These companies are building it that way](/ next/image?url=https%3A%2F%2Fcms.interestingengineering.com%2Fwp-content%2Fuploads%2F2026%2F04%2FUntitled-1 1b60f5.jpg&w=3840&q=75)](/transportation/rv-energy-solar-power-lithium-battery). These companies are buil...
[8] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com
GPT-5.5 scored 73.1% on Expert-SWE, the company's internal evaluation for coding tasks with an estimated 20-hour completion time. OpenAI reports
[10] OpenAI Releases GPT-5.5 With State-of-the-Art Scores on Coding, Science, and Computer Uselinkedin.com
On BixBench, a real-world bioinformatics benchmark, GPT-5.5 reaches 80.5%, up from 74.0%. Two researcher accounts published alongside the model