Las tablas de benchmarks prometen una respuesta sencilla, pero este cruce no se resuelve con un único campeón. La tabla común más sólida compara GPT-5.5, GPT-5.5 Pro cuando aparece, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 entra sobre todo por comparativas separadas, así que sus resultados son señales útiles, no una liga perfectamente homogénea [4][
11][
13].
La forma práctica de leer estos datos es menos glamorosa, pero más útil: elige el benchmark que más se parezca a tu trabajo real y después prueba los finalistas con tus propios prompts, herramientas, límites de contexto y criterios de calidad.
Ganadores rápidos por tipo de trabajo
| Carga de trabajo | Opción mejor respaldada | Por qué |
|---|---|---|
| Razonamiento científico | Claude Opus 4.7 | 94,2 % en GPQA Diamond, por delante de GPT-5.5 con 93,6 % y DeepSeek-V4-Pro-Max con 90,1 % [ |
| Razonamiento experto sin herramientas | Claude Opus 4.7 | 46,9 % en Humanity’s Last Exam sin herramientas, frente a 43,1 % de GPT-5.5 Pro, 41,4 % de GPT-5.5 y 37,7 % de DeepSeek-V4-Pro-Max [ |
| Razonamiento con herramientas | GPT-5.5 Pro | 57,2 % en Humanity’s Last Exam con herramientas, por delante de Claude Opus 4.7 con 54,7 % [ |
| Terminal y agentes informáticos | GPT-5.5 | 82,7 % en Terminal-Bench 2.0, frente a 69,4 % de Claude Opus 4.7 y 67,9 % de DeepSeek-V4-Pro-Max [ |
| Operación de sistema operativo | GPT-5.5 | 78,7 % en OSWorld-Verified frente a 78,0 % de Claude Opus 4.7 [ |
| Matemáticas de frontera | GPT-5.5 | 51,7 % en FrontierMath Tiers 1–3 frente a 43,8 % de Claude Opus 4.7 [ |
| Ingeniería de software en la tabla compartida | Claude Opus 4.7 | 64,3 % en SWE-Bench Pro / SWE Pro, por delante de GPT-5.5 con 58,6 % y DeepSeek-V4-Pro-Max con 55,4 % [ |
| Navegación web | GPT-5.5 Pro | 90,1 % en BrowseComp, por delante de GPT-5.5 con 84,4 %, DeepSeek-V4-Pro-Max con 83,4 % y Claude Opus 4.7 con 79,3 % [ |
| Flujos con herramientas tipo MCP | Claude Opus 4.7 | 79,1 % en MCP Atlas / MCPAtlas Public, frente a 75,3 % de GPT-5.5 y 73,6 % de DeepSeek-V4-Pro-Max [ |
| Visión y análisis documental | Claude Opus 4.7 | Reportado como N.º 1 en Vision & Document Arena, con victorias en diagramas, tareas escolares y OCR [ |
| Presupuesto muy sensible | DeepSeek V4 | VentureBeat lo describe como inteligencia casi de frontera a alrededor de una sexta parte del costo de Opus 4.7 y GPT-5.5, aunque ese ahorro debe validarse en tu propia carga [ |
| Comparación menos limpia a cuatro bandas | Kimi K2.6 | Tiene puntuaciones útiles, pero la evidencia citada aparece sobre todo en comparativas separadas de la tabla GPT-5.5 / Claude Opus 4.7 / DeepSeek-V4-Pro-Max [ |
Tabla detallada de benchmarks
| Benchmark / capacidad | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 / V4 Pro Max | Kimi K2.6 | Lectura más sólida |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6 % [ | No informado | 94,2 % [ | 90,1 % para DeepSeek-V4-Pro-Max [ | No informado | Claude lidera la tabla compartida [ |
| Humanity’s Last Exam, sin herramientas | 41,4 % [ | 43,1 % [ | 46,9 % [ | 37,7 % para DeepSeek-V4-Pro-Max [ | No informado | Claude lidera la tabla compartida [ |
| Humanity’s Last Exam, con herramientas | 52,2 % [ | 57,2 % [ | 54,7 % [ | 48,2 % para DeepSeek-V4-Pro-Max [ | 54,0 % en una comparación separada de Kimi [ | GPT-5.5 Pro lidera la tabla compartida [ |
| Terminal-Bench 2.0 | 82,7 % [ | No informado | 69,4 % [ | 67,9 % para DeepSeek-V4-Pro-Max [ | 66,7 % en una comparación separada de Kimi [ | GPT-5.5 lidera [ |
| SWE-Bench Pro / SWE Pro | 58,6 % [ | No informado | 64,3 % [ | 55,4 % para DeepSeek-V4-Pro-Max [ | 58,6 % en una comparación separada de Kimi [ | Claude lidera la tabla compartida [ |
| BrowseComp | 84,4 % [ | 90,1 % [ | 79,3 % [ | 83,4 % para DeepSeek-V4-Pro-Max [ | 83,2 % en una comparación Kimi vs DeepSeek [ | GPT-5.5 Pro lidera la tabla compartida [ |
| MCP Atlas / MCPAtlas Public | 75,3 % [ | No informado | 79,1 % [ | 73,6 % para DeepSeek-V4-Pro-Max [ | No informado | Claude lidera [ |
| OSWorld-Verified | 78,7 % [ | No informado | 78,0 % [ | No informado | No informado | GPT-5.5 supera a Claude por poco [ |
| FrontierMath Tiers 1–3 | 51,7 % [ | No informado | 43,8 % [ | No informado | No informado | GPT-5.5 lidera frente a Claude [ |
| Vision & Document Arena | No informado | No informado | Reportado como N.º 1 general [ | No informado | No informado | Claude tiene el único resultado citado [ |
| AIME 2026 | No informado | No informado | No informado | No disponible en la tabla Kimi vs DeepSeek citada [ | 96,4 % en modo Thinking [ | Señal útil para Kimi, no ranking a cuatro bandas [ |
| APEX Agents | No informado | No informado | No informado | No disponible en la tabla Kimi vs DeepSeek citada [ | 27,9 % en modo Thinking [ | Señal útil para Kimi, no ranking a cuatro bandas [ |
| Ventana de contexto | No informado | No informado | 1.000k tokens en una comparación de Artificial Analysis [ | 1.000k tokens para DeepSeek V4 Pro en la misma comparación [ | No informado | Claude y DeepSeek V4 Pro empatan en esa configuración [ |
Las filas que mezclan fuentes deben leerse con cuidado. Una puntuación de Kimi reportada en una comparación centrada en Kimi puede orientar una prueba, pero no pesa igual que un resultado obtenido en la misma tabla y con el mismo arnés que GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [4][
11][
13].
GPT-5.5: fuerte en terminal, sistemas, matemáticas y uso de herramientas
La victoria más clara de GPT-5.5 está en Terminal-Bench 2.0: 82,7 % frente a 69,4 % de Claude Opus 4.7 y 67,9 % de DeepSeek-V4-Pro-Max en la tabla compartida [4][
5]. Es una de las diferencias más grandes del conjunto citado.
También supera a Claude Opus 4.7 en OSWorld-Verified, aunque por un margen mínimo: 78,7 % frente a 78,0 % [5]. En FrontierMath Tiers 1–3, la ventaja es más visible: 51,7 % frente al 43,8 % de Claude [
5].
GPT-5.5 Pro cambia la foto cuando importan las herramientas o la navegación. Lidera Humanity’s Last Exam con herramientas con 57,2 %, por delante de Claude Opus 4.7 con 54,7 %, GPT-5.5 con 52,2 % y DeepSeek-V4-Pro-Max con 48,2 % [4]. También encabeza BrowseComp con 90,1 %, frente a 84,4 % de GPT-5.5, 83,4 % de DeepSeek-V4-Pro-Max y 79,3 % de Claude Opus 4.7 [
4].
Eso no significa que GPT-5.5 gane todo razonamiento. Claude Opus 4.7 lo supera por muy poco en GPQA Diamond: 94,2 % frente a 93,6 % en la tabla compartida [4]. Una guía separada reporta métricas solo para GPT-5.5, como 91,7 % en Harvey BigLaw Bench, 88,5 % en un benchmark interno de banca de inversión y 80,5 % en BixBench, pero esas cifras no deben tratarse como victorias a cuatro bandas porque el extracto citado no da los mismos resultados para Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 [
7].
Claude Opus 4.7: mejor perfil citado sin herramientas y en documentos
Claude Opus 4.7 tiene el perfil más sólido de razonamiento sin herramientas en la tabla principal. Lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 % [4]. En la misma tabla también encabeza SWE-Bench Pro / SWE Pro con 64,3 % y MCP Atlas / MCPAtlas Public con 79,1 % [
4].
Su punto débil, según estos datos, aparece en tareas de operación tipo terminal. GPT-5.5 le saca más de 13 puntos en Terminal-Bench 2.0, 82,7 % frente a 69,4 %, y también lo supera en OSWorld-Verified y FrontierMath Tiers 1–3 [4][
5].
En multimodalidad y documentos, Claude tiene la señal citada más fuerte. Una fuente reporta que Claude Opus 4.7 ocupa el N.º 1 en Vision & Document Arena, mejora en 4 puntos a Opus 4.6 en Document Arena y gana subcategorías de diagramas, tareas escolares y OCR [1]. Esa misma fuente no aporta puntuaciones numéricas comparables para GPT-5.5, DeepSeek V4 o Kimi K2.6, así que respalda la fortaleza documental de Claude, pero no un ranking multimodal completo a cuatro bandas [
1].
DeepSeek V4: competitivo, con el argumento principal en precio/rendimiento
Las fuentes no usan siempre la misma etiqueta de DeepSeek. La tabla compartida habla de DeepSeek-V4-Pro-Max, mientras que la comparación de Artificial Analysis menciona DeepSeek V4 Pro con una ventana de contexto de 1.000k tokens [4][
3]. Conviene no tratar esas etiquetas como automáticamente intercambiables.
En la tabla compartida, DeepSeek-V4-Pro-Max compite de cerca, pero no lidera ninguna fila. Sus resultados son 90,1 % en GPQA Diamond, 37,7 % en Humanity’s Last Exam sin herramientas, 48,2 % en Humanity’s Last Exam con herramientas, 67,9 % en Terminal-Bench 2.0, 55,4 % en SWE-Bench Pro / SWE Pro, 83,4 % en BrowseComp y 73,6 % en MCP Atlas / MCPAtlas Public [4].
Su reclamo más fuerte no es una victoria de benchmark, sino el precio/rendimiento. VentureBeat describe DeepSeek V4 como capaz de ofrecer inteligencia casi de estado del arte a alrededor de una sexta parte del costo de Opus 4.7 y GPT-5.5 [4]. Eso justifica probarlo si el presupuesto pesa mucho, pero no sustituye una validación con tus tareas reales.
Para filtros de contexto largo, una comparación de Artificial Analysis lista tanto a DeepSeek V4 Pro como a Claude Opus 4.7 con ventanas de contexto de 1.000k tokens [3]. Eso indica paridad en esas configuraciones concretas, no una conclusión general sobre todos los modos de DeepSeek o Claude [
3].
Kimi K2.6: señales prometedoras, comparabilidad más débil
Kimi K2.6 es el modelo más difícil de ordenar limpiamente aquí porque no aparece en la tabla principal junto a GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [4]. Una comparación centrada en Kimi reporta K2.6 con 58,6 % en SWE-Bench Pro, 80,2 % en SWE-Bench Verified, 66,7 % en Terminal-Bench 2.0, 54,0 % en Humanity’s Last Exam con herramientas y 89,6 % en LiveCodeBench v6 [
13]. Esa fuente indica que los números de K2.6 vienen de una model card oficial de Moonshot AI, pero el conjunto comparativo se centra sobre todo en Claude Opus 4.6 y GPT-5.4, no exactamente en los cuatro modelos de este artículo [
13].
Otra comparación Kimi vs DeepSeek reporta Kimi K2.6 con 96,4 % en AIME 2026 en modo Thinking, 27,9 % en APEX Agents en modo Thinking y 83,2 % en BrowseComp con modo Thinking y gestión de contexto [11]. En esa misma fuente, DeepSeek-V4 Pro aparece con 83,4 % en BrowseComp, mientras que no hay valores disponibles para DeepSeek en AIME 2026 y APEX Agents [
11].
La lectura razonable: Kimi merece pruebas, sobre todo si te interesan codificación, agentes, matemáticas o navegación, pero las fuentes citadas no permiten afirmar un ranking global limpio frente a GPT-5.5 y Claude Opus 4.7 sobre la misma batería de benchmarks [11][
13].
Qué modelo probar primero
- Prueba GPT-5.5 primero si tu carga depende de agentes en terminal, operación de entornos de sistema o matemáticas tipo FrontierMath; lidera los resultados citados de Terminal-Bench 2.0, OSWorld-Verified y FrontierMath [
4][
5].
- Prueba GPT-5.5 Pro primero si el trabajo central combina razonamiento con herramientas o navegación web; lidera Humanity’s Last Exam con herramientas y BrowseComp en la tabla compartida [
4].
- Prueba Claude Opus 4.7 primero para razonamiento científico tipo GPQA, preguntas expertas sin herramientas, ingeniería de software al estilo SWE-Bench Pro, flujos MCP y trabajo multimodal cargado de documentos [
4][
1].
- Prueba DeepSeek V4 primero si el precio/rendimiento es la restricción principal y puedes medir calidad por tu cuenta; la ventaja citada es rendimiento casi de frontera a alrededor de una sexta parte del costo de Opus 4.7 y GPT-5.5 [
4].
- Prueba Kimi K2.6 primero si quieres evaluar específicamente sus resultados reportados en codificación, agentes, matemáticas y navegación, pero compáralo con los mismos prompts, herramientas, límites de contexto, objetivos de latencia y reglas de evaluación que uses para los demás modelos [
11][
13].
Cautelas importantes antes de decidir
Esto no es una clasificación universal. Las fuentes mezclan variantes base y Pro, incluidos GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 y Kimi K2.6 [3][
4][
11][
13]. Algunas mediciones también son reportadas por proveedores, y OpenAI señala que sus evaluaciones GPT para ARC se ejecutaron con esfuerzo de razonamiento xhigh en un entorno de investigación que puede diferir del ChatGPT de producción [
5][
8].
Los márgenes pequeños deben leerse como señales, no como veredictos. La ventaja de Claude sobre GPT-5.5 en GPQA Diamond es de 0,6 puntos, y la ventaja de GPT-5.5 sobre Claude en OSWorld-Verified es de 0,7 puntos [4][
5]. Las diferencias grandes son más accionables: GPT-5.5 supera a Claude por más de 13 puntos en Terminal-Bench 2.0 y por 7,9 puntos en FrontierMath [
5].
Conclusión práctica: no hay un ganador único entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6. Usa el benchmark que mejor se parezca a tu carga real, reduce la lista a dos o tres candidatos y vuelve a evaluarlos con el mismo flujo que piensas usar en producción.




