La respuesta corta: esta comparación no se resuelve con un podio único. La tabla más comparable reúne GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 entra desde su ficha de Hugging Face y un archivo de evaluación, así que no conviene leerlo como si hubiera participado en el mismo cara a cara [6][
25][
37].
También hay que separar las variantes de DeepSeek. En la tabla común aparece DeepSeek-V4-Pro-Max, mientras que otra cifra de SWE-Bench Verified corresponde a DeepSeek V4-Pro, no a Pro-Max [6][
15]. Dicho de forma práctica: DeepSeek V4 no es una sola cifra universal; el resultado depende de la variante y de la fuente.
Qué probar primero según el caso
- Razonamiento complejo sin herramientas: Claude Opus 4.7 es el primer candidato: encabeza GPQA Diamond y Humanity's Last Exam sin herramientas en la tabla común [
6].
- Tareas agentic en terminal: GPT-5.5 queda claramente por delante en Terminal-Bench 2.0, con 82,7 % frente al 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek-V4-Pro-Max [
6].
- Razonamiento con herramientas y navegación: GPT-5.5 Pro lidera donde sí hay datos para esa variante: 57,2 % en HLE con herramientas y 90,1 % en BrowseComp [
6].
- Programación y pruebas con pesos disponibles: Kimi K2.6 merece una evaluación aparte: su ficha indica 80,2 en SWE-Bench Verified, 58,6 en SWE-Bench Pro y 66,7 en Terminal-Bench 2.0 [
25][
37]. Además, otra fuente señala que sus pesos están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers [
7].
- Escenarios donde el coste pesa más que el primer puesto: DeepSeek V4 no lidera las filas de la tabla común, pero las fuentes citan precios de API de 1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida, frente a 5/30 dólares para GPT-5.5 y 5/25 dólares para Claude Opus 4.7 [
14][
19].
Tabla comparativa de resultados disponibles
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Líder según los datos disponibles |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6 % [ | n/d | 94,2 % [ | 90,1 % en DeepSeek-V4-Pro-Max [ | n/d | Claude Opus 4.7 [ |
| Humanity's Last Exam, sin herramientas | 41,4 % [ | 43,1 % [ | 46,9 % [ | 37,7 % en DeepSeek-V4-Pro-Max [ | n/d | Claude Opus 4.7 [ |
| Humanity's Last Exam, con herramientas | 52,2 % [ | 57,2 % [ | 54,7 % [ | 48,2 % en DeepSeek-V4-Pro-Max [ | n/d | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82,7 % [ | n/d | 69,4 % [ | 67,9 % en DeepSeek-V4-Pro-Max [ | 66,7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58,6 % [ | n/d | 64,3 % [ | 55,4 % en DeepSeek-V4-Pro-Max [ | 58,6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84,4 % [ | 90,1 % [ | 79,3 % [ | 83,4 % en DeepSeek-V4-Pro-Max [ | n/d | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75,3 % [ | n/d | 79,1 % [ | 73,6 % en DeepSeek-V4-Pro-Max [ | n/d | Claude Opus 4.7 [ |
| SWE-Bench Verified | n/d | n/d | 87,6 % en una comparación separada [ | 80,6 % para DeepSeek V4-Pro, no Pro-Max [ | 80,2 [ | No hay una fila común para todos [ |
En la tabla, n/d significa que el dato no aparece en la fuente correspondiente; no equivale a que el modelo haya obtenido cero.
Razonamiento: Claude gana sin herramientas; GPT-5.5 Pro mejora con ellas
En GPQA Diamond, la diferencia entre Claude Opus 4.7 y GPT-5.5 es pequeña: 94,2 % frente a 93,6 %. DeepSeek-V4-Pro-Max queda más atrás con 90,1 % [6].
La ventaja de Claude se nota más en Humanity's Last Exam sin herramientas: 46,9 %, frente al 41,4 % de GPT-5.5, el 43,1 % de GPT-5.5 Pro y el 37,7 % de DeepSeek-V4-Pro-Max [6].
Pero el orden cambia cuando se permiten herramientas. En esa fila de HLE, GPT-5.5 Pro alcanza 57,2 %, por delante de Claude Opus 4.7 con 54,7 %, GPT-5.5 con 52,2 % y DeepSeek-V4-Pro-Max con 48,2 % [6]. La lectura más justa es esta: Claude parece más fuerte en razonamiento puro sin herramientas, mientras que GPT-5.5 Pro lidera en la prueba de razonamiento asistido por herramientas que aparece en la tabla [
6].
Coding y agentes: el salto más claro es GPT-5.5 en Terminal-Bench
La mayor distancia a favor de GPT-5.5 aparece en Terminal-Bench 2.0: 82,7 %, frente al 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek-V4-Pro-Max [6]. Para Kimi K2.6, la ficha de Hugging Face informa 66,7 en Terminal-Bench 2.0, y el leaderboard de LLM Stats también recoge 0,667 para Kimi K2.6 y 0,694 para Claude Opus 4.7 [
25][
33]. Eso deja a Kimi cerca de Claude y DeepSeek en esa escala concreta, pero claramente por debajo de GPT-5.5 según la tabla común [
6][
25][
33].
En SWE-Bench Pro / SWE Pro, la foto cambia. Claude Opus 4.7 lidera con 64,3 %, GPT-5.5 marca 58,6 % y DeepSeek-V4-Pro-Max queda en 55,4 % [6]. Kimi K2.6 también aparece con 58,6 en SWE-Bench Pro en su ficha de Hugging Face, pero ese dato no procede del mismo pase comparativo que la tabla principal [
6][
25].
SWE-Bench Verified conviene leerlo con más cautela. Para Kimi K2.6 hay un valor de 80,2 en la ficha del modelo y en el archivo de evaluación [25][
37]. En otra revisión de DeepSeek V4 se citan 87,6 % para Claude Opus 4.7 y 80,6 % para DeepSeek V4-Pro, pero esa fuente no ofrece una fila completa con GPT-5.5 y, además, habla de V4-Pro, no de V4-Pro-Max [
15].
Modelo por modelo
GPT-5.5 y GPT-5.5 Pro
GPT-5.5 destaca sobre todo en Terminal-Bench 2.0: su 82,7 % es el mejor resultado de la tabla común en esa fila [6]. GPT-5.5 Pro no aparece en todos los benchmarks, pero donde sí figura queda muy bien situado: 57,2 % en HLE con herramientas y 90,1 % en BrowseComp, ambos primeros puestos en esas filas [
6].
Si la prioridad son tareas de agente en terminal, GPT-5.5 debería estar entre los primeros modelos a probar. Si el flujo depende de herramientas, navegación o acciones externas, GPT-5.5 Pro es el candidato más fuerte en las filas donde hay datos [6].
Claude Opus 4.7
Claude Opus 4.7 lidera varias líneas de la tabla común: 94,2 % en GPQA Diamond, 46,9 % en HLE sin herramientas, 64,3 % en SWE-Bench Pro / SWE Pro y 79,1 % en MCP Atlas / MCPAtlas Public [6]. En cambio, pierde frente a GPT-5.5 en Terminal-Bench 2.0 y frente a GPT-5.5 Pro en HLE con herramientas y BrowseComp [
6].
Para razonamiento difícil sin herramientas o para tareas de programación cercanas a SWE-Bench Pro, Claude Opus 4.7 aparece como el candidato más sólido en estas métricas [6].
Kimi K2.6
Kimi K2.6 no puede ordenarse de forma estricta contra todos los demás porque sus cifras proceden de una ficha de Hugging Face y de un archivo de evaluación aparte [25][
37]. Aun así, su perfil de programación es llamativo: la ficha cita 80,2 en SWE-Bench Verified, 58,6 en SWE-Bench Pro, 76,7 en SWE-Bench Multilingual, 66,7 en Terminal-Bench 2.0 y 73,1 en OSWorld-Verified [
25][
37].
Su atractivo operativo está en que otra fuente señala pesos disponibles en Hugging Face y ejecución mediante vLLM, SGLang o KTransformers [7]. Eso no convierte a Kimi en ganador de la tabla general, pero sí lo vuelve interesante para equipos que quieran hacer pruebas autoalojadas o experimentos con mayor control de despliegue [
7][
25].
DeepSeek V4
En la tabla común, DeepSeek aparece como DeepSeek-V4-Pro-Max [6]. En las filas citadas no queda primero: obtiene 90,1 % en GPQA Diamond, 37,7 % en HLE sin herramientas, 48,2 % en HLE con herramientas, 67,9 % en Terminal-Bench 2.0, 55,4 % en SWE-Bench Pro / SWE Pro, 83,4 % en BrowseComp y 73,6 % en MCP Atlas / MCPAtlas Public [
6].
Su punto fuerte en esta comparativa no es el liderazgo absoluto, sino el precio. Mashable y DataCamp citan para DeepSeek V4 precios de API de 1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida; como comparación, esas mismas fuentes indican 5/30 dólares para GPT-5.5 y 5/25 dólares para Claude Opus 4.7 [14][
19]. Si el presupuesto es la principal restricción, DeepSeek V4 merece entrar en una evaluación propia, aunque no deba presentarse como líder de benchmarks en esta tabla [
6][
14][
19].
Límites importantes de la comparación
- No hay un único pase común para los cuatro modelos en todas las filas. La tabla principal cubre GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 se añade desde fuentes separadas [
6][
25][
37].
- DeepSeek V4 no siempre significa la misma variante. La tabla común usa DeepSeek-V4-Pro-Max, mientras que la cifra de SWE-Bench Verified citada en otra fuente corresponde a DeepSeek V4-Pro [
6][
15].
- GPT-5.5 Pro aparece solo en algunas pruebas. No se debe extrapolar su rendimiento a benchmarks donde la fuente no da una cifra para esa variante [
6].
- Kimi K2.6 requiere una evaluación propia si se va a usar en producción. Sus resultados de Hugging Face son útiles, pero no provienen del mismo marco comparativo que los de GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [
6][
25][
37].
Conclusión
Si se miran solo las filas realmente comparables de la tabla principal, Claude Opus 4.7 gana GPQA Diamond, Humanity's Last Exam sin herramientas, SWE-Bench Pro y MCP Atlas; GPT-5.5 gana Terminal-Bench 2.0; y GPT-5.5 Pro se impone en HLE con herramientas y BrowseComp [6]. Kimi K2.6 parece un candidato fuerte para programación y pruebas con pesos disponibles, pero no se puede clasificar con total rigor frente al resto sin un pase común [
7][
25][
37]. DeepSeek V4 no lidera esas filas de benchmark, aunque sus precios de API publicados lo mantienen como una opción razonable para escenarios sensibles al coste [
6][
14][
19].




