Comparar modelos frontera con una sola prueba es una receta para sacar conclusiones equivocadas. Lo más útil para un equipo que va a pagar API o montar flujos de trabajo no es preguntar cuál es el mejor en abstracto, sino qué modelo gana en su tipo de tarea, con qué variante y a qué precio. Con las fuentes disponibles, el mapa queda así: GPT-5.5 ofrece la señal agregada más fuerte, Claude Opus 4.7 gana varias filas duras de razonamiento e ingeniería de software, DeepSeek V4 tiene la ventaja de costo de API más clara, y Kimi K2.6 parece sólido para código y agentes, pero con menos evidencia directa contra GPT-5.5 y Opus 4.7.[2][
16][
15][
18][
19]
Veredicto rápido
| Si lo que más te importa es… | Elección mejor respaldada | Por qué |
|---|---|---|
| Señal agregada de inteligencia | GPT-5.5 | Artificial Analysis lista GPT-5.5 xhigh con 60 y GPT-5.5 high con 59, por delante de Claude Opus 4.7 Adaptive Reasoning Max Effort con 57.[ |
| Razonamiento difícil e ingeniería de software | Claude Opus 4.7, con GPT-5.5 muy cerca | En la tabla compartida por VentureBeat, Claude lidera GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas; GPT-5.5 lidera Terminal-Bench 2.0 y BrowseComp en modelo base, y GPT-5.5 Pro lidera HLE con herramientas y BrowseComp cuando aparece esa variante.[ |
| Menor costo API entre los modelos insignia listados | DeepSeek V4 | Mashable lista DeepSeek V4 a $1,74 por 1 millón de tokens de entrada y $3,48 por 1 millón de tokens de salida, por debajo de GPT-5.5 a $5/$30 y Claude Opus 4.7 a $5/$25.[ |
| Métricas publicadas de coding y programación competitiva | DeepSeek V4 Pro | Together AI lista DeepSeek V4 Pro con 93,5 % en LiveCodeBench, Codeforces 3206, 80,6 % en SWE-Bench Verified y 76,2 % en SWE-Bench Multilingual.[ |
| Evaluar Kimi K2.6 | Prometedor, pero no cerrado | Kimi K2.6 tiene números útiles en código y tareas agénticas, pero buena parte de la evidencia disponible lo compara con GPT-5.4 y Claude Opus 4.6, no con GPT-5.5 y Claude Opus 4.7.[ |
Primero, el ranking agregado: ventaja para GPT-5.5
La señal agregada más clara en las fuentes disponibles viene de Artificial Analysis. En su índice, GPT-5.5 xhigh aparece primero con 60 puntos y GPT-5.5 high segundo con 59; Claude Opus 4.7 Adaptive Reasoning Max Effort aparece con 57.[2]
Kimi K2.6 queda por debajo de ese bloque GPT-5.5/Claude en los fragmentos compuestos disponibles. OpenRouter lista Kimi K2.6 con 53,9 en Intelligence, 47,1 en Coding y 66,0 en Agentic; LLMBase también muestra Kimi con 53,9 en Intelligence y 47,1 en Coding.[3][
1] En esa misma comparación de LLMBase, DeepSeek V4 Flash High aparece con 44,9 en Intelligence y 39,8 en Coding, aunque conviene subrayar que se trata de la variante Flash, no de DeepSeek V4 Pro ni Pro-Max.[
1]
La advertencia es importante: la clasificación agregada da una señal clara para GPT-5.5 frente a Claude Opus 4.7, pero no ofrece una única tabla completa que ponga a GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro-Max y Kimi K2.6 en la misma fila comparativa.[2]
En benchmarks compartidos: decisión dividida
La tabla de VentureBeat es la referencia más útil para comparar DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro cuando aparece y Claude Opus 4.7 en las mismas pruebas.[16]
| Benchmark | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro, cuando aparece | Claude Opus 4.7 | Mejor resultado en esa fuente |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1 % | 93,6 % | — | 94,2 % | Claude Opus 4.7[ |
| Humanity’s Last Exam, sin herramientas | 37,7 % | 41,4 % | 43,1 % | 46,9 % | Claude Opus 4.7[ |
| Humanity’s Last Exam, con herramientas | 48,2 % | 52,2 % | 57,2 % | 54,7 % | GPT-5.5 Pro[ |
| Terminal-Bench 2.0 | 67,9 % | 82,7 % | — | 69,4 % | GPT-5.5[ |
| SWE-Bench Pro / SWE Pro | 55,4 % | 58,6 % | — | 64,3 % | Claude Opus 4.7[ |
| BrowseComp | 83,4 % | 84,4 % | 90,1 % | 79,3 % | GPT-5.5 Pro[ |
| MCP Atlas / MCPAtlas Public | 73,6 % | 75,3 % | — | 79,1 % | Claude Opus 4.7[ |
La lectura correcta no es que uno arrase. Es un reparto de victorias. Claude Opus 4.7 tiene el mejor argumento en GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas.[16] GPT-5.5, en cambio, obtiene los mejores resultados de modelo base en Terminal-Bench 2.0 y BrowseComp, mientras GPT-5.5 Pro queda por encima en HLE con herramientas y BrowseComp cuando VentureBeat incluye esa variante.[
16]
DeepSeek-V4-Pro-Max se mantiene competitivo en varias filas, pero no supera al mejor resultado de GPT-5.5 o Claude Opus 4.7 en esa tabla compartida. Su resultado más cercano está en BrowseComp: 83,4 %, frente al 84,4 % de GPT-5.5 y el 79,3 % de Claude Opus 4.7.[16]
Programación: no basta con una sola nota de código
Para tareas de ingeniería de software sobre repositorios, Claude Opus 4.7 tiene el resultado compartido más fuerte en SWE-Bench Pro dentro de la tabla de VentureBeat: 64,3 %, frente al 58,6 % de GPT-5.5 y el 55,4 % de DeepSeek-V4-Pro-Max.[16]
DeepSeek V4 Pro, sin embargo, ofrece el perfil de programación más detallado en las fichas disponibles. Together AI lista DeepSeek V4 Pro con 93,5 % en LiveCodeBench, Codeforces 3206, 80,6 % en SWE-Bench Verified y 76,2 % en SWE-Bench Multilingual.[25] La ficha de NVIDIA también desglosa variantes DeepSeek V4 Flash y V4 Pro en pruebas como GPQA Diamond, HLE, LiveCodeBench y Codeforces, con V4-Pro Max en 93,5 en LiveCodeBench y 3206 en Codeforces.[
31]
Kimi K2.6 también tiene señales relevantes para programación, aunque las tablas más centradas en Kimi lo comparan sobre todo con competidores de generación anterior. Lorka lista Kimi K2.6 con 58,6 % en SWE-Bench Pro, 54,0 % en HLE-Full con herramientas, 90,5 % en GPQA-Diamond y 79,4 % en MMMU-Pro en una tabla frente a GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro.[18] Verdent lista Kimi K2.6 con 80,2 % en SWE-Bench Verified, 66,7 % en Terminal-Bench 2.0, 54,0 % en HLE con herramientas y 89,6 % en LiveCodeBench v6, y además señala que Opus 4.7 lidera SWE-Bench Verified con 87,6 %.[
19]
La conclusión práctica: Kimi K2.6 merece pruebas internas si el caso de uso combina código, herramientas y agentes. Lo que no permiten afirmar estas fuentes es que sea el ganador global frente a GPT-5.5 o Claude Opus 4.7.[18][
19]
Precio de API: DeepSeek cambia la conversación
Si el costo por token pesa mucho en la decisión, DeepSeek V4 tiene el argumento más contundente entre las fuentes disponibles. Mashable lista DeepSeek V4 a $1,74 por 1 millón de tokens de entrada y $3,48 por 1 millón de tokens de salida, frente a GPT-5.5 a $5 por 1 millón de tokens de entrada y $30 por 1 millón de tokens de salida, y Claude Opus 4.7 a $5 por 1 millón de tokens de entrada y $25 por 1 millón de tokens de salida.[15]
| Modelo o variante | Precio de entrada listado | Precio de salida listado | Nota |
|---|---|---|---|
| GPT-5.5 | $5 por 1 millón de tokens | $30 por 1 millón de tokens | Mashable lo lista con ventana de contexto de 1 millón en esta comparación.[ |
| Claude Opus 4.7 | $5 por 1 millón de tokens | $25 por 1 millón de tokens | Mashable lo lista con ventana de contexto de 1 millón en esta comparación.[ |
| DeepSeek V4 | $1,74 por 1 millón de tokens | $3,48 por 1 millón de tokens | Mashable lo lista con ventana de contexto de 1 millón en esta comparación.[ |
| DeepSeek V4 Flash | $0,14 por 1 millón de tokens | $0,28 por 1 millón de tokens | LLMBase lista un precio combinado de $0,18 en su comparación DeepSeek V4 Flash High vs Kimi K2.6.[ |
| Kimi K2.6 | $0,95 por 1 millón de tokens | $4,00 por 1 millón de tokens | LLMBase lista un precio combinado de $1,71 en la misma comparación.[ |
No conviene asumir que todos los endpoints tengan la misma ventana de contexto o los mismos límites. Mashable lista ventanas de contexto de 1 millón para DeepSeek V4, GPT-5.5 y Claude Opus 4.7 en su comparación de precios, mientras que una ficha de OpenRouter para DeepSeek V4 Pro muestra 256K tokens máximos y 66K tokens máximos de salida.[15][
3] Antes de pasar a producción, hay que confirmar proveedor, variante exacta y modo de razonamiento.
Qué elegir según el uso
GPT-5.5: el mejor valor por defecto si mandan los rankings agregados
GPT-5.5 es la opción más segura si la decisión se guía por la clasificación agregada disponible. Artificial Analysis sitúa GPT-5.5 xhigh en 60 y GPT-5.5 high en 59, los dos primeros puestos del Intelligence Index en el fragmento aportado.[2]
También destaca en dos filas compartidas de VentureBeat: 82,7 % en Terminal-Bench 2.0 y 84,4 % en BrowseComp para GPT-5.5 base, con GPT-5.5 Pro en 90,1 % en BrowseComp cuando esa variante aparece.[16]
Claude Opus 4.7: fuerte para razonamiento duro y software
Claude Opus 4.7 queda muy cerca de GPT-5.5 en el ranking agregado, con 57 en el Intelligence Index de Artificial Analysis para el modo Adaptive Reasoning Max Effort.[2] En la tabla compartida de VentureBeat, lidera frente a GPT-5.5 y DeepSeek-V4-Pro-Max en GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas.[
16]
Anthropic también reporta en su material de lanzamiento resultados internos de agente de investigación: un empate en la mejor puntuación global de 0,715 en seis módulos y 0,813 en General Finance frente a 0,767 de Opus 4.6.[17] Como son métricas internas, sirven como contexto, no como sustituto de una evaluación independiente.[
17]
DeepSeek V4: la mejor apuesta de valor si la variante encaja
La ventaja más evidente de DeepSeek V4 es el precio. En la comparación de Mashable, sus precios de entrada y salida quedan muy por debajo de GPT-5.5 y Claude Opus 4.7: $1,74 y $3,48 por 1 millón de tokens, frente a $5/$30 para GPT-5.5 y $5/$25 para Claude Opus 4.7.[15]
DeepSeek V4 Pro también presenta métricas de código potentes, entre ellas 93,5 % en LiveCodeBench, Codeforces 3206, 80,6 % en SWE-Bench Verified y 76,2 % en SWE-Bench Multilingual en la ficha de Together AI.[25] El matiz es que DeepSeek-V4-Pro-Max queda por detrás del mejor resultado de GPT-5.5 o Claude Opus 4.7 en las filas compartidas de VentureBeat, incluso cuando se acerca en BrowseComp.[
16]
Kimi K2.6: candidato serio para código y agentes, pero menos probado en esta carrera
Kimi K2.6 es más difícil de colocar en una clasificación directa de cuatro modelos porque las tablas más centradas en Kimi lo comparan principalmente con GPT-5.4 y Claude Opus 4.6, no con GPT-5.5 y Claude Opus 4.7.[18][
19] Aun así, las señales no son menores: OpenRouter lista Kimi K2.6 con 53,9 en Intelligence, 47,1 en Coding y 66,0 en Agentic, mientras Verdent lista 80,2 % en SWE-Bench Verified y 89,6 % en LiveCodeBench v6.[
3][
19]
La conclusión no es que Kimi K2.6 esté descartado. Es que la evidencia directa es más fina. Si su precio, ruta de despliegue o comportamiento agéntico encaja con tu stack, merece evaluación; las fuentes disponibles no bastan para nombrarlo ganador global frente a GPT-5.5 o Claude Opus 4.7.[18][
19]
Advertencias antes de decidir
- Las variantes importan. DeepSeek V4 aparece en las fuentes como V4, V4 Flash, V4 Pro y DeepSeek-V4-Pro-Max; precios, límites y resultados cambian según la variante y el modo de razonamiento.[
1][
15][
25][
31]
- Las comparaciones de Kimi son menos directas. Las tablas más fuertes para Kimi K2.6 lo enfrentan con GPT-5.4 y Claude Opus 4.6, no con GPT-5.5 y Claude Opus 4.7.[
18][
19]
- Humanity’s Last Exam sin herramientas muestra inconsistencias entre fuentes. LLM Stats y VentureBeat reportan GPT-5.5 en 41,4 % y Claude Opus 4.7 en 46,9 %, mientras que el fragmento de Mashable sobre GPT frente a Claude reporta GPT-5.5 en 40,6 % y Opus 4.7 en 31,2 %.[
7][
16][
9]
- Los benchmarks internos no equivalen a rankings independientes. El lanzamiento de Anthropic para Opus 4.7 incluye mejoras en un benchmark interno de agente de investigación, pero esos datos deben leerse de forma distinta a una comparación pública entre proveedores.[
17]
- Precio y contexto dependen del proveedor. Una misma familia de modelos puede aparecer con distintas ventanas de contexto, límites de salida y configuraciones según el endpoint.[
3][
15]
Conclusión
Elige GPT-5.5 si tu criterio principal es la mejor señal agregada de inteligencia disponible.[2] Elige Claude Opus 4.7 si tu trabajo se parece a las filas de razonamiento difícil e ingeniería de software donde lidera, como GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas.[
16] Elige DeepSeek V4 si el costo-rendimiento es central y puedes validar la variante concreta que vas a usar; su precio API listado es mucho más bajo que el de GPT-5.5 y Claude Opus 4.7, y DeepSeek V4 Pro tiene métricas de código fuertes.[
15][
25] Trata Kimi K2.6 como un candidato creíble para coding y agentes, pero no como ganador global probado frente a GPT-5.5 o Claude Opus 4.7 con la evidencia directa disponible.[
18][
19]




