Comparar Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6 en una sola tabla invita a preguntar cuál es el más fuerte. Con los datos disponibles, la respuesta útil es otra: no conviene hacer una liga general, sino elegir por tarea.
La tabla más limpia cubre DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro y Claude Opus 4.7. Kimi K2.6 sí tiene datos públicos relevantes, pero están repartidos entre ventana de contexto, BrowseComp, SWE-Bench Pro, una model card de Hugging Face y una prueba práctica de programación; por eso debe compararse con más cautela.[4][
6][
10][
16][
22][
24]
Veredicto rápido: qué probar primero
| Caso de uso | Modelo que conviene probar antes | Por qué |
|---|---|---|
| Razonamiento difícil y preguntas sin herramientas | Claude Opus 4.7 | En la tabla común lidera GPQA Diamond con 94,2 % y Humanity's Last Exam sin herramientas con 46,9 %.[ |
| Agentes con terminal, navegador o uso intensivo de herramientas | GPT-5.5 / GPT-5.5 Pro | GPT-5.5 logra 82,7 % en Terminal-Bench 2.0 y GPT-5.5 Pro alcanza 90,1 % en BrowseComp, ambos máximos de la tabla.[ |
| Ingeniería de software | Claude Opus 4.7 primero; GPT-5.5 y Kimi K2.6 después en pruebas propias | Claude Opus 4.7 marca 64,3 % en SWE-Bench Pro/SWE Pro; LLM Stats también lo sitúa en 0,64, por encima de GPT-5.5 y Kimi K2.6, ambos con 0,59.[ |
| Muchas llamadas de API y sensibilidad al coste | DeepSeek V4 | DeepSeek V4-Pro-Max no lidera los benchmarks comunes, pero un reporte lo sitúa alrededor de una sexta parte del coste de los modelos estadounidenses más recientes.[ |
| Ecosistema Kimi o ruta alternativa para agentes de código | Kimi K2.6 | Kimi K2.6 aparece con 83,2 % en BrowseComp y 0,59 en SWE-Bench Pro, pero falta una tabla completa, homogénea y simultánea frente a los otros tres modelos.[ |
| Flujos con contexto muy largo | Claude Opus 4.7 / GPT-5.5 | Yahoo/Tech lista GPT-5.5 y Claude Opus 4.7 con ventana de contexto de 1M; Artificial Analysis lista Kimi K2.6 con 256k tokens y Claude Opus 4.7 con 1000k tokens.[ |
La comparación más sólida: Claude, GPT-5.5 y DeepSeek V4-Pro-Max
Estos resultados proceden de una misma tabla comparativa. Sirven para comparar DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro y Claude Opus 4.7; GPT-5.5 Pro solo aparece en algunos apartados.[4]
| Benchmark | DeepSeek V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Mejor resultado en esa tabla |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1 % | 93,6 % | — | 94,2 % | Claude Opus 4.7 [ |
| Humanity's Last Exam, sin herramientas | 37,7 % | 41,4 % | 43,1 % | 46,9 % | Claude Opus 4.7 [ |
| Humanity's Last Exam, con herramientas | 48,2 % | 52,2 % | 57,2 % | 54,7 % | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 67,9 % | 82,7 % | — | 69,4 % | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 55,4 % | 58,6 % | — | 64,3 % | Claude Opus 4.7 [ |
| BrowseComp | 83,4 % | 84,4 % | 90,1 % | 79,3 % | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 73,6 % | 75,3 % | — | 79,1 % | Claude Opus 4.7 [ |
La lectura es bastante clara. Claude Opus 4.7 queda por delante en razonamiento académico, resolución sin herramientas, ingeniería de software y MCP Atlas. GPT-5.5 y GPT-5.5 Pro sobresalen más en terminal, navegación y tareas con herramientas.[4]
DeepSeek V4-Pro-Max no logra ningún primer puesto en esa tabla, pero tampoco queda fuera de juego: en BrowseComp marca 83,4 %, muy cerca del 84,4 % de GPT-5.5 y por encima del 79,3 % de Claude Opus 4.7.[4]
Kimi K2.6: prometedor, pero no equivalente a una tabla común
El problema de Kimi K2.6 no es la ausencia total de datos. El problema es que proceden de fuentes, modos y grupos de comparación distintos. Eso permite decidir si merece entrar en una lista corta, pero no declararlo campeón absoluto frente a Claude Opus 4.7, GPT-5.5 y DeepSeek V4-Pro-Max.[6][
10][
16][
22][
24]
| Indicador | Dato visible de Kimi K2.6 | Comparación disponible | Cómo interpretarlo |
|---|---|---|---|
| Ventana de contexto | 256k tokens | Claude Opus 4.7 aparece con 1000k tokens en la misma página | Claude ofrece bastante más margen para documentos largos o historiales extensos.[ |
| BrowseComp | 83,2 % en modo Thinking | DeepSeek-V4 Pro figura con 83,4 % Pass@1 / Think Max | Kimi queda prácticamente empatado con DeepSeek en esa fuente, pero ahí no aparecen GPT-5.5 ni Claude Opus 4.7.[ |
| AIME 2026 / APEX Agents | 96,4 % en AIME 2026 y 27,9 % en APEX Agents | DeepSeek-V4 Pro figura como no disponible en esa página | Señales positivas en matemáticas y agentes, aunque sin comparación completa con los cuatro modelos.[ |
| SWE-Bench Pro | 0,59 | Claude Opus 4.7 aparece con 0,64; GPT-5.5 con 0,59; DeepSeek V4-Pro-Max con 0,55 | En LLM Stats, Kimi empata con GPT-5.5, queda por debajo de Claude y por encima de DeepSeek.[ |
| MMLU-Pro / SimpleQA-Verified | 87,1 en MMLU-Pro y 36,9 en SimpleQA-Verified | DS-V4-Pro Max aparece con 87,5 y 57,9 | Sirve para contrastar Kimi con DeepSeek, pero la misma tabla usa Opus-4.6 Max y GPT-5.4 xHigh, no las versiones Claude Opus 4.7 y GPT-5.5 analizadas aquí.[ |
| Prueba práctica de código | 87 puntos | Claude Opus 4.7 marca 97, GPT-5.5 xHigh 96, DeepSeek V4 Flash 78 y DeepSeek V4 Pro 69 | Útil como referencia práctica, pero no sustituye a benchmarks estandarizados ni a una evaluación en tu propio repositorio.[ |
La posición razonable de Kimi K2.6 es, por tanto, la de candidato serio. Si ya trabajas con el ecosistema Kimi, buscas una alternativa para agentes de código o quieres optimizar costes, merece entrar en las pruebas. Pero los datos actuales no bastan para convertirlo en ganador demostrado de los cuatro modelos.[10][
16][
24]
Precio, ventana de contexto y coste real de producción
Los benchmarks miden capacidad, no coste total. En producción importan también el precio de entrada y salida, la longitud de contexto, la latencia, el volumen de llamadas y, si hay despliegue propio, el tamaño del modelo.
| Modelo | Datos verificables en las fuentes | Implicación práctica |
|---|---|---|
| GPT-5.5 | US$5 por millón de tokens de entrada, US$30 por millón de tokens de salida y ventana de contexto de 1M | Mismo precio de entrada que Claude Opus 4.7 en ese reporte, pero salida más cara.[ |
| Claude Opus 4.7 | US$5 por millón de tokens de entrada, US$25 por millón de tokens de salida y ventana de contexto de 1M; Artificial Analysis también lo lista con 1000k tokens de contexto | Mejor coste de salida que GPT-5.5 en ese reporte, con una ventana de contexto muy amplia.[ |
| Kimi K2.6 | Ventana de contexto de 256k tokens | Menor margen de contexto que Claude Opus 4.7; las fuentes usadas aquí no ofrecen un precio por token suficientemente completo para compararlo con seguridad.[ |
| DeepSeek V4 | Un reporte afirma que DeepSeek ronda una sexta parte del coste de los modelos estadounidenses más recientes; DataCamp lista DeepSeek V4 Pro como MoE con 1,6 T de parámetros totales, 49.000 millones activos y descarga de 865 GB, mientras Flash aparece con 284.000 millones totales, 13.000 millones activos y descarga de 160 GB | Si usas API, el atractivo principal es el coste; si piensas en despliegue propio o privado, el tamaño y la infraestructura pesan mucho.[ |
La señal económica más fuerte es que GPT-5.5 y Claude Opus 4.7 aparecen con el mismo precio de entrada, US$5 por millón de tokens, pero GPT-5.5 figura con US$30 por millón de tokens de salida frente a US$25 en Claude Opus 4.7. DeepSeek entra en la conversación por la promesa de un coste aproximado de una sexta parte.[20]
Cómo elegir según el trabajo
1. Razonamiento difícil: empezar por Claude Opus 4.7
Para tareas de análisis complejo, preguntas de alta exigencia o resolución sin herramientas externas, Claude Opus 4.7 es la primera opción más defendible con los datos comunes. Obtiene 94,2 % en GPQA Diamond, frente al 93,6 % de GPT-5.5 y el 90,1 % de DeepSeek V4-Pro-Max; también lidera Humanity's Last Exam sin herramientas con 46,9 %.[4]
2. Terminal, navegador y agentes con herramientas: empezar por GPT-5.5
Si el trabajo depende de operar en terminal, navegar, coordinar herramientas o resolver con ayuda externa, GPT-5.5/GPT-5.5 Pro tiene la ventaja más visible. GPT-5.5 alcanza 82,7 % en Terminal-Bench 2.0, por encima del 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek V4-Pro-Max; GPT-5.5 Pro lidera BrowseComp con 90,1 %.[4]
3. Ingeniería de software: Claude lidera, pero conviene probar con tu repositorio
En la tabla común, Claude Opus 4.7 obtiene 64,3 % en SWE-Bench Pro/SWE Pro, por delante del 58,6 % de GPT-5.5 y del 55,4 % de DeepSeek V4-Pro-Max.[4] LLM Stats muestra una dirección parecida: Claude Opus 4.7 aparece con 0,64; GPT-5.5 y Kimi K2.6 con 0,59; DeepSeek V4-Pro-Max con 0,55.[
24]
Aun así, las pruebas de código son especialmente sensibles al repositorio, el lenguaje, el framework, el agente usado y el prompt. Una prueba práctica sitúa a Claude Opus 4.7 en 97 puntos, GPT-5.5 xHigh en 96, Kimi K2.6 en 87, DeepSeek V4 Flash en 78 y DeepSeek V4 Pro en 69; son datos útiles, pero no deberían decidir por sí solos una adopción en producción.[16]
4. Coste por token: DeepSeek V4 merece una prueba temprana
Si el cuello de botella es el coste y no necesitas el primer puesto en todos los benchmarks, DeepSeek V4 es un candidato razonable. En la tabla común se mantiene cerca de los modelos de frontera en varios indicadores, aunque sin liderar ninguno; al mismo tiempo, un reporte lo presenta como alrededor de una sexta parte del coste de los modelos estadounidenses más recientes.[4][
20]
El matiz es importante: DeepSeek V4 Pro no es pequeño. DataCamp lo lista con arquitectura Mixture of Experts, 1,6 T de parámetros totales, 49.000 millones activos y una descarga de 865 GB.[13] Si no vas a usar solo una API externa, el coste de hardware, inferencia y mantenimiento debe entrar en la cuenta.
5. Kimi K2.6: incluirlo en la lista corta y repetir la evaluación
Kimi K2.6 ofrece señales que justifican probarlo: 83,2 % en BrowseComp según DocsBot, casi igual que el 83,4 % de DeepSeek-V4 Pro en la misma página; 0,59 en SWE-Bench Pro según LLM Stats, igual que GPT-5.5; y 87 puntos en una prueba práctica de programación.[10][
16][
24]
Pero, al faltar una cobertura completa y homogénea frente a Claude Opus 4.7, GPT-5.5 y DeepSeek V4-Pro-Max, lo prudente es tratarlo como candidato de alto potencial, no como ganador probado.[10][
24]
Límites de esta comparación
- Kimi K2.6 no aparece en la tabla común más completa. Los datos más comparables cubren DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro y Claude Opus 4.7; para Kimi hay que combinar Artificial Analysis, DocsBot, LLM Stats, Hugging Face y una prueba práctica de código.[
4][
6][
10][
16][
22][
24]
- Los nombres de versión y modo no son homogéneos. Las fuentes mezclan etiquetas como GPT-5.5 Pro, GPT-5.5 xHigh, DeepSeek-V4 Pro, DeepSeek V4-Pro-Max, Kimi Thinking y Claude Opus 4.7 Adaptive Reasoning / Max Effort; no deben tratarse automáticamente como configuraciones idénticas.[
4][
6][
10][
16][
22]
- Las escalas de puntuación cambian según la plataforma. Una fuente expresa SWE-Bench Pro en porcentajes, mientras LLM Stats usa valores como 0,64 o 0,59. Lo más seguro es comparar primero dentro de la misma fuente y después repetir la evaluación con tus propios casos.[
4][
24]
- La información de precios no está igual de completa para todos. GPT-5.5 y Claude Opus 4.7 tienen precios de entrada y salida en la fuente usada; DeepSeek aparece sobre todo con la referencia de una sexta parte del coste; para Kimi K2.6 no hay suficiente precio por token verificable en este conjunto de fuentes.[
6][
20]
Conclusión
Si necesitas una frase: Claude Opus 4.7 es la apuesta más fuerte para razonamiento difícil e ingeniería de software; GPT-5.5/GPT-5.5 Pro destaca en agentes con terminal, navegador y herramientas; DeepSeek V4-Pro-Max es una opción de equilibrio entre capacidad y coste; Kimi K2.6 es prometedor, pero necesita más evidencia homogénea antes de tratarlo como campeón de la comparativa.[4][
10][
20][
24]
Para decidir de verdad, no basta con copiar una tabla. Ejecuta los cuatro modelos con los mismos tickets, repositorios, documentos, permisos de herramientas, límites de contexto, presupuesto de tokens y criterios de error. Ahí es donde un benchmark deja de ser una clasificación abstracta y se convierte en una decisión de producto.




