Los benchmarks públicos sirven para hacer una primera criba. Lo que no hacen, al menos con la evidencia disponible, es convertir automáticamente a GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 en una clasificación global única.
La razón es sencilla: los datos citables vienen de documentos distintos —la página de lanzamiento y la system card de GPT-5.5 de OpenAI, la documentación de API de Claude Opus 4.7 de Anthropic y la tarjeta de modelo de DeepSeek V4-Pro—, no de una misma prueba independiente, con la misma configuración y las mismas versiones para los cuatro modelos.[29][
27][
13][
6]
Antes de comparar: qué versión estamos mirando
En este artículo, DeepSeek V4 se refiere a DS-V4-Pro Max, y Kimi K2.6 se refiere a K2.6 Thinking. Son los nombres de columna que aparecen directamente en la tarjeta de modelo de DeepSeek.[6]
Este matiz importa. En la tabla de DeepSeek, las columnas de GPT y Claude no corresponden a GPT-5.5 ni a Claude Opus 4.7, sino a GPT-5.4 xHigh y Opus-4.6 Max.[6] Por eso, esa tabla no permite decidir por sí sola si DeepSeek V4-Pro Max gana o pierde frente a GPT-5.5 o Claude Opus 4.7.
En el caso de Anthropic, la documentación pública de Claude Opus 4.7 consultada se centra sobre todo en funciones y uso vía API, como la beta de task budgets13]
La intersección más limpia: Terminal-Bench 2.0
Entre las fuentes disponibles, el benchmark compartido más claro para los cuatro modelos es Terminal-Bench 2.0. Según las tablas públicas citadas, el orden queda así:
| Modelo | Terminal-Bench 2.0 | Fuente |
|---|---|---|
| GPT-5.5 | 82,7 % | Página de OpenAI y resumen de MLQ.ai [ |
| Claude Opus 4.7 | 69,4 % | Página de OpenAI [ |
| DeepSeek V4-Pro Max | 67,9 % | Tarjeta de modelo de DeepSeek V4-Pro [ |
| Kimi K2.6 Thinking | 66,7 % | Tarjeta de modelo de DeepSeek V4-Pro [ |
La conclusión sólida, pero limitada, es esta: en Terminal-Bench 2.0, GPT-5.5 aparece claramente por delante; Claude Opus 4.7 queda segundo; y DeepSeek V4-Pro Max y Kimi K2.6 Thinking están cerca entre sí.[29][
30][
6]
Lo que no se puede concluir es que GPT-5.5 vaya a ser siempre mejor en cualquier flujo de trabajo. Tampoco sustituye una repetición de pruebas con el mismo marco de evaluación, los mismos permisos de herramientas, la misma ventana de contexto y el mismo presupuesto de razonamiento.
GPT-5.5 frente a Claude Opus 4.7: lo que muestra la tabla de OpenAI
La página de lanzamiento de OpenAI incluye varios benchmarks donde compara GPT-5.5 con Claude Opus 4.7. En todos los elementos listados en esa tabla, GPT-5.5 aparece con una puntuación superior.[29]
| Benchmark en la tabla de OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82,7 % | 69,4 % |
| GDPval, victorias o empates | 84,9 % | 80,3 % |
| BrowseComp | 84,4 % | 79,3 % |
| FrontierMath Tier 1–3 | 51,7 % | 43,8 % |
| FrontierMath Tier 4 | 35,4 % | 22,9 % |
| CyberGym | 81,8 % | 73,1 % |
Esta tabla respalda una lectura acotada: en los benchmarks que OpenAI enumera, GPT-5.5 supera a Claude Opus 4.7.[29] Además, la system card de OpenAI presenta GPT-5.5 como un modelo orientado a trabajo complejo del mundo real, incluyendo escritura de código, investigación online, análisis de información, creación de documentos y hojas de cálculo, y tareas que requieren moverse entre herramientas.[
27]
Aun así, sigue siendo una comparación publicada por OpenAI. No equivale a una evaluación independiente, con un único harness y los cuatro modelos ejecutados bajo las mismas condiciones.[29]
DeepSeek V4-Pro Max frente a Kimi K2.6 Thinking: lo que muestra la tarjeta de DeepSeek
La tarjeta de modelo de DeepSeek V4-Pro ofrece una comparación directa entre DS-V4-Pro Max y K2.6 Thinking en varios benchmarks.[6] En esa tabla, DeepSeek V4-Pro Max queda por encima en la mayoría de las pruebas, aunque Kimi también tiene ventajas claras en algunos apartados.[
6]
| Benchmark en la tarjeta de DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | Lidera en la tabla |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi |
| HLE | 37,7 | 36,4 | DeepSeek |
| LiveCodeBench | 93,5 | 89,6 | DeepSeek |
| HMMT 2026 Feb | 95,2 | 92,7 | DeepSeek |
| IMOAnswerBench | 89,8 | 86,0 | DeepSeek |
| Apex Shortlist | 90,2 | 75,5 | DeepSeek |
| SWE Pro | 55,4 | 58,6 | Kimi |
| Terminal-Bench 2.0 | 67,9 | 66,7 | DeepSeek |
La lectura prudente es que DS-V4-Pro Max supera a K2.6 Thinking en la mayoría de los benchmarks incluidos por DeepSeek, mientras que Kimi K2.6 Thinking lidera en GPQA Diamond y SWE Pro.[6]
También conviene mirar la distancia, no solo quién aparece delante. En MMLU-Pro y Terminal-Bench 2.0, por ejemplo, las diferencias son estrechas. Para una decisión de producto, el tipo de tarea y el margen de error pueden importar más que la flecha de ganador.
Por qué no hay un ranking absoluto de los cuatro
El error más tentador es juntar la tabla de OpenAI, la tabla de DeepSeek y la documentación de Anthropic, sumar puntuaciones y proclamar un ganador. Con los datos públicos citados, ese salto no está justificado.
Hay tres problemas principales:
- Las versiones no coinciden. OpenAI compara GPT-5.5 con Claude Opus 4.7; la tabla de DeepSeek incluye GPT-5.4 xHigh y Opus-4.6 Max, no GPT-5.5 ni Claude Opus 4.7.[
29][
6]
- Las fuentes no son homogéneas. Los datos proceden de páginas de lanzamiento, una system card, documentación de API y una tarjeta de modelo. No son una repetición completa de los cuatro modelos por parte de un mismo tercero independiente.[
29][
27][
13][
6]
- Los indicadores miden cosas distintas. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond y SWE Pro no evalúan la misma capacidad. Sin pesos explícitos, sumarlos en una sola nota puede ocultar diferencias importantes entre tareas.[
29][
6]
Por eso, los benchmarks públicos funcionan mejor como primera capa de orientación que como criterio único para comprar, migrar o diseñar una arquitectura.
Cómo usar estos datos en una decisión de producto
Una forma más práctica de leerlos es por capas:
- Capa de benchmark compartido. La intersección más clara entre los cuatro modelos es Terminal-Bench 2.0; ahí GPT-5.5 lidera.[
29][
30][
6]
- Capa de comparación dentro de cada proveedor. La tabla de OpenAI respalda que GPT-5.5 supera a Claude Opus 4.7 en los benchmarks listados; la tarjeta de DeepSeek respalda que DS-V4-Pro Max supera a K2.6 Thinking en la mayoría de sus pruebas.[
29][
6]
- Capa de evaluación propia. Conviene dividir las tareas reales en programación, agentes, razonamiento, búsqueda o recuperación de información, uso de herramientas, latencia y coste. Después, repetir pruebas con los mismos prompts, el mismo contexto, los mismos permisos y las mismas reglas de evaluación.
Si el producto depende de bucles largos de agente, la función task budgets13]
Si el caso de uso se parece más a programación compleja, investigación online, creación de documentos u hojas de cálculo, o trabajo coordinado entre herramientas, la descripción de GPT-5.5 en la system card de OpenAI encaja directamente con esos escenarios.[27]
En cualquier caso, incluso un modelo que lidere en una tabla pública debe probarse dentro del entorno real: repositorio de código, herramientas disponibles, límites de permisos, políticas de recuperación ante fallos y presupuesto operativo.
La formulación más segura del ranking
- Solo en Terminal-Bench 2.0: GPT-5.5 primero, Claude Opus 4.7 segundo, DeepSeek V4-Pro Max tercero y Kimi K2.6 Thinking cuarto.[
29][
30][
6]
- Dentro de la tabla de OpenAI: GPT-5.5 supera a Claude Opus 4.7 en los benchmarks listados.[
29]
- Dentro de la tabla de DeepSeek: DS-V4-Pro Max supera a Kimi K2.6 Thinking en la mayoría de las pruebas, pero Kimi lidera en GPQA Diamond y SWE Pro.[
6]
- Ranking absoluto entre los cuatro: la evidencia pública no basta. Falta una evaluación completa con el mismo tercero, las mismas versiones y las mismas condiciones de prueba para GPT-5.5, Claude Opus 4.7, DeepSeek V4-Pro Max y Kimi K2.6 Thinking.[
29][
13][
6]




