Los benchmarks de IA no deberían leerse como una clasificación deportiva. Funcionan mejor como un mapa: cada prueba ilumina una capacidad distinta —razonamiento, uso de herramientas, navegación web, terminal, programación o coste— y el modelo adecuado depende de la tarea.
Con los datos disponibles, la conclusión más prudente es esta: Claude Opus 4.7 es la opción más fuerte en razonamiento difícil sin herramientas y en SWE-Bench Pro; GPT-5.5 Pro sobresale cuando la tarea permite herramientas o navegación; GPT-5.5 tiene la señal más clara en terminal; DeepSeek V4 resulta atractivo por coste/rendimiento, aunque con advertencias de alucinación; y Kimi K2.6 tiene buenos indicadores aislados, pero no una matriz homogénea que lo compare con todos los rivales en las mismas condiciones [1][
2][
3][
8][
9].
La tabla rápida: quién gana en cada benchmark
El símbolo — significa que la fuente citada no ofrece una cifra comparable para ese modelo en ese benchmark. No significa una puntuación de cero.
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek-V4-Pro-Max | Kimi K2.6 | Mejor resultado en estos datos |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6 % | — | 94,2 % | 90,1 % | — en la tabla directa; LLM Stats lista GPQA 0,91 | Claude Opus 4.7 [ |
| Humanity’s Last Exam, sin herramientas | 41,4 % | 43,1 % | 46,9 % | 37,7 % | — | Claude Opus 4.7 [ |
| Humanity’s Last Exam, con herramientas | 52,2 % | 57,2 % | 54,7 % | 48,2 % | — | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82,7 % | — | 69,4 % | 67,9 % | — | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58,6 % | — | 64,3 % | 55,4 % | LLM Stats lista 0,59 | Claude Opus 4.7 [ |
| BrowseComp | 84,4 % | 90,1 % | 79,3 % | 83,4 % | DocsBot lista 83,2 % | GPT-5.5 Pro en la tabla de VentureBeat [ |
| MCP Atlas / MCPAtlas Public | 75,3 % | — | 79,1 % | 73,6 % | — | Claude Opus 4.7 [ |
La tabla deja claro por qué no conviene declarar un campeón absoluto. Claude Opus 4.7 domina varias pruebas de razonamiento e ingeniería de software; GPT-5.5 Pro cambia la clasificación cuando entran herramientas y navegación; GPT-5.5 saca una ventaja clara en terminal; y Kimi K2.6 aparece sobre todo en fuentes separadas, no en la misma comparación completa [2][
3][
8][
9].
Si necesitas razonamiento difícil: Claude Opus 4.7 parte con ventaja
En la comparación directa de VentureBeat, Claude Opus 4.7 logra 94,2 % en GPQA Diamond, por encima de GPT-5.5 con 93,6 % y DeepSeek-V4-Pro-Max con 90,1 % [2]. La distancia con GPT-5.5 no es enorme, pero en esa tabla Claude queda primero [
2].
La ventaja se repite en Humanity’s Last Exam sin herramientas: Claude Opus 4.7 obtiene 46,9 %, frente al 43,1 % de GPT-5.5 Pro, el 41,4 % de GPT-5.5 y el 37,7 % de DeepSeek-V4-Pro-Max [2]. Para preguntas complejas, razonamiento científico o evaluaciones donde el modelo no puede apoyarse en herramientas externas, los datos citados favorecen a Claude Opus 4.7 [
2].
Kimi K2.6 tiene una señal propia en GPQA: LLM Stats lo lista con 0,91, mientras que Claude Opus 4.7 y GPT-5.5 aparecen ambos con 0,94 redondeado en ese leaderboard [8]. Aun así, ese dato no procede de la misma tabla GPQA Diamond de VentureBeat, así que conviene tratarlo como una referencia complementaria, no como una comparación perfecta uno a uno [
2][
8].
Si dependes de herramientas o web: GPT-5.5 Pro destaca
Cuando el benchmark permite usar herramientas, el orden cambia. En Humanity’s Last Exam con herramientas, GPT-5.5 Pro alcanza 57,2 %, por encima de Claude Opus 4.7 con 54,7 %, GPT-5.5 con 52,2 % y DeepSeek-V4-Pro-Max con 48,2 % [2].
La misma tendencia aparece en BrowseComp, una prueba vinculada a navegación y comprensión web: GPT-5.5 Pro marca 90,1 %, GPT-5.5 obtiene 84,4 %, DeepSeek-V4-Pro-Max 83,4 % y Claude Opus 4.7 79,3 % en la tabla de VentureBeat [2]. DocsBot lista a Kimi K2.6 con 83,2 % en BrowseComp, pero ese dato procede de una página comparativa específica entre Kimi K2.6 y DeepSeek-V4 Pro, no de la misma matriz completa [
9].
Para cargas de trabajo de investigación web, consulta de información reciente, orquestación de herramientas o flujos donde el modelo debe decidir cuándo buscar, leer y sintetizar, GPT-5.5 Pro es el candidato más fuerte en los datos citados [2].
Para terminal y agentes de línea de comandos: GPT-5.5 tiene la señal más clara
Terminal-Bench 2.0 importa cuando no basta con responder: el modelo debe actuar en un entorno de línea de comandos. La prueba se describe como una medición de flujos CLI reales, con manipulación de archivos, ejecución de scripts, depuración y coordinación de herramientas [5].
En esa prueba, GPT-5.5 alcanza 82,7 %, muy por encima de Claude Opus 4.7 con 69,4 % y DeepSeek-V4-Pro-Max con 67,9 % [2]. Si el caso de uso es un agente que ejecuta comandos, arregla errores en un repositorio, automatiza tareas o encadena pasos en shell, esta es la ventaja más contundente de GPT-5.5 dentro de los datos disponibles [
2][
5].
Para ingeniería de software compleja: Claude Opus 4.7 lidera SWE-Bench Pro
SWE-Bench Pro es una señal especialmente relevante para trabajo de software. LLM Stats lo describe como una versión avanzada de SWE-Bench que evalúa tareas reales de ingeniería de software y exige razonamiento prolongado y resolución de problemas en varios pasos [3].
En la tabla de VentureBeat, Claude Opus 4.7 consigue 64,3 % en SWE-Bench Pro / SWE Pro, por delante de GPT-5.5 con 58,6 % y DeepSeek-V4-Pro-Max con 55,4 % [2]. LLM Stats también lista a Claude Opus 4.7 con 0,64, GPT-5.5 con 0,59, Kimi K2.6 con 0,59 y DeepSeek-V4-Pro-Max con 0,55 en SWE-Bench Pro [
3].
Aunque las fuentes presentan las puntuaciones en formatos distintos, la señal principal coincide: Claude Opus 4.7 encabeza este grupo en SWE-Bench Pro; GPT-5.5 y Kimi K2.6 aparecen muy cerca entre sí en LLM Stats; y DeepSeek-V4-Pro-Max queda por debajo en los números citados [2][
3].
DeepSeek V4: muy interesante por coste, pero hay que vigilar las alucinaciones
DeepSeek-V4-Pro-Max no lidera ninguna fila de la comparación directa de VentureBeat: obtiene 90,1 % en GPQA Diamond, 37,7 % en Humanity’s Last Exam sin herramientas, 48,2 % en Humanity’s Last Exam con herramientas, 67,9 % en Terminal-Bench 2.0, 55,4 % en SWE-Bench Pro, 83,4 % en BrowseComp y 73,6 % en MCP Atlas [2].
Su atractivo está en el coste. VentureBeat describe DeepSeek-V4 como cercano al estado del arte con un coste de alrededor de 1/6 frente a Opus 4.7 y GPT-5.5 [2]. Eso puede cambiar la decisión si el volumen de uso es alto o si el presupuesto pesa más que ganar unos puntos en el benchmark.
La cautela está en la fiabilidad. Artificial Analysis señala que DeepSeek V4 Pro Max obtiene -10 en AA-Omniscience, una mejora de 11 puntos frente a V3.2 Reasoning en -21, pero también afirma que V4 Pro y V4 Flash tienen tasas de alucinación muy altas, de 94 % y 96 %, respectivamente [1].
No se debe concluir automáticamente que DeepSeek V4 sea el menos fiable de todo el grupo, porque las fuentes citadas no ofrecen la misma métrica de alucinación para GPT-5.5, Claude Opus 4.7 y Kimi K2.6 [1]. La conclusión segura es más práctica: DeepSeek V4 merece una prueba si el coste es prioritario, pero necesita validaciones propias y controles estrictos de respuestas inventadas en el flujo real de trabajo [
1][
2].
Kimi K2.6: buenas señales, pero falta una comparación común
Kimi K2.6 es el modelo más difícil de colocar en la tabla general. No porque no tenga datos, sino porque esos datos no aparecen en la misma matriz completa que compara GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [2][
3][
8][
9].
Las señales disponibles son interesantes. LLM Stats lista a Kimi K2.6 con 0,91 en GPQA y 0,59 en SWE-Bench Pro [3][
8]. DocsBot, por su parte, lo lista con 96,4 % en AIME 2026 en thinking mode, 27,9 % en APEX Agents y 83,2 % en BrowseComp; en esa misma página, DeepSeek-V4 Pro aparece con 83,4 % en BrowseComp [
9].
Pero al venir de fuentes y contextos distintos, esos resultados no bastan para afirmar que Kimi K2.6 gane o pierda de forma global. La lectura más razonable es tratarlo como un candidato que merece pruebas internas cuando sus benchmarks específicos coinciden con tus necesidades [3][
8][
9].
Entonces, ¿qué modelo conviene usar?
- Razonamiento científico o conocimiento difícil sin herramientas: empieza por Claude Opus 4.7, que lidera GPQA Diamond y Humanity’s Last Exam sin herramientas en la comparación directa [
2].
- Uso de herramientas, navegación web o investigación asistida: prioriza GPT-5.5 Pro, que encabeza Humanity’s Last Exam con herramientas y BrowseComp en los datos citados [
2].
- Agentes que trabajan en terminal o flujos CLI: GPT-5.5 tiene la señal más fuerte con 82,7 % en Terminal-Bench 2.0 [
2][
5].
- Ingeniería de software compleja: Claude Opus 4.7 lidera SWE-Bench Pro tanto en VentureBeat como en LLM Stats; GPT-5.5 y Kimi K2.6 aparecen empatados en 0,59 en LLM Stats [
2][
3].
- Optimización de coste/rendimiento: DeepSeek V4 es atractivo porque se describe como cercano al estado del arte a alrededor de 1/6 del coste de Opus 4.7 y GPT-5.5, pero requiere pruebas de alucinación y controles de calidad [
1][
2].
- Interés específico en Kimi K2.6: úsalo como candidato a evaluar, no como ganador universal demostrado; sus datos de GPQA, SWE-Bench Pro, AIME 2026, APEX Agents y BrowseComp son útiles, pero no forman una comparación homogénea con todos los demás [
3][
8][
9].
Límites importantes de esta comparativa
Primero, GPT-5.5 Pro solo aparece en algunas filas de la tabla de VentureBeat. No se puede suponer que lidere —o que quede por detrás— en benchmarks donde no se publica una cifra comparable [2].
Segundo, la información de Kimi K2.6 procede sobre todo de LLM Stats y DocsBot, no de la misma tabla completa donde aparecen GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [2][
3][
8][
9].
Tercero, OpenAI tiene una system card para GPT-5.5 donde describe CoT-Control, una evaluación de más de 13.000 tareas construidas a partir de benchmarks como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified [20]. Es información útil para entender cómo se evalúa GPT-5.5, pero las fuentes citadas no ofrecen resultados equivalentes de CoT-Control para Claude Opus 4.7, DeepSeek V4 y Kimi K2.6, así que no sirve para ordenar a todos en igualdad de condiciones [
20].
En resumen: Claude Opus 4.7 es la apuesta más sólida de esta muestra para razonamiento difícil y SWE-Bench Pro; GPT-5.5 Pro es el más destacado cuando entran herramientas y web; GPT-5.5 brilla en terminal; DeepSeek V4 gana interés cuando manda el presupuesto; y Kimi K2.6 tiene indicadores prometedores, pero necesita una comparación más homogénea o pruebas internas antes de coronarlo [1][
2][
3][
8][
9].




