La señal agregada más clara en las fuentes disponibles viene de Artificial Analysis. En su índice, GPT-5.5 xhigh aparece primero con 60 puntos y GPT-5.5 high segundo con 59; Claude Opus 4.7 Adaptive Reasoning Max Effort aparece con 57.
Kimi K2.6 queda por debajo de ese bloque GPT-5.5/Claude en los fragmentos compuestos disponibles. OpenRouter lista Kimi K2.6 con 53,9 en Intelligence, 47,1 en Coding y 66,0 en Agentic; LLMBase también muestra Kimi con 53,9 en Intelligence y 47,1 en Coding. En esa misma comparación de LLMBase, DeepSeek V4 Flash High aparece con 44,9 en Intelligence y 39,8 en Coding, aunque conviene subrayar que se trata de la variante Flash, no de DeepSeek V4 Pro ni Pro-Max.
La advertencia es importante: la clasificación agregada da una señal clara para GPT-5.5 frente a Claude Opus 4.7, pero no ofrece una única tabla completa que ponga a GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro-Max y Kimi K2.6 en la misma fila comparativa.
La tabla de VentureBeat es la referencia más útil para comparar DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro cuando aparece y Claude Opus 4.7 en las mismas pruebas.
La lectura correcta no es que uno arrase. Es un reparto de victorias. Claude Opus 4.7 tiene el mejor argumento en GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas. GPT-5.5, en cambio, obtiene los mejores resultados de modelo base en Terminal-Bench 2.0 y BrowseComp, mientras GPT-5.5 Pro queda por encima en HLE con herramientas y BrowseComp cuando VentureBeat incluye esa variante.
DeepSeek-V4-Pro-Max se mantiene competitivo en varias filas, pero no supera al mejor resultado de GPT-5.5 o Claude Opus 4.7 en esa tabla compartida. Su resultado más cercano está en BrowseComp: 83,4 %, frente al 84,4 % de GPT-5.5 y el 79,3 % de Claude Opus 4.7.
Para tareas de ingeniería de software sobre repositorios, Claude Opus 4.7 tiene el resultado compartido más fuerte en SWE-Bench Pro dentro de la tabla de VentureBeat: 64,3 %, frente al 58,6 % de GPT-5.5 y el 55,4 % de DeepSeek-V4-Pro-Max.
DeepSeek V4 Pro, sin embargo, ofrece el perfil de programación más detallado en las fichas disponibles. Together AI lista DeepSeek V4 Pro con 93,5 % en LiveCodeBench, Codeforces 3206, 80,6 % en SWE-Bench Verified y 76,2 % en SWE-Bench Multilingual. La ficha de NVIDIA también desglosa variantes DeepSeek V4 Flash y V4 Pro en pruebas como GPQA Diamond, HLE, LiveCodeBench y Codeforces, con V4-Pro Max en 93,5 en LiveCodeBench y 3206 en Codeforces.
Kimi K2.6 también tiene señales relevantes para programación, aunque las tablas más centradas en Kimi lo comparan sobre todo con competidores de generación anterior. Lorka lista Kimi K2.6 con 58,6 % en SWE-Bench Pro, 54,0 % en HLE-Full con herramientas, 90,5 % en GPQA-Diamond y 79,4 % en MMMU-Pro en una tabla frente a GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro. Verdent lista Kimi K2.6 con 80,2 % en SWE-Bench Verified, 66,7 % en Terminal-Bench 2.0, 54,0 % en HLE con herramientas y 89,6 % en LiveCodeBench v6, y además señala que Opus 4.7 lidera SWE-Bench Verified con 87,6 %.
La conclusión práctica: Kimi K2.6 merece pruebas internas si el caso de uso combina código, herramientas y agentes. Lo que no permiten afirmar estas fuentes es que sea el ganador global frente a GPT-5.5 o Claude Opus 4.7.
Si el costo por token pesa mucho en la decisión, DeepSeek V4 tiene el argumento más contundente entre las fuentes disponibles. Mashable lista DeepSeek V4 a $1,74 por 1 millón de tokens de entrada y $3,48 por 1 millón de tokens de salida, frente a GPT-5.5 a $5 por 1 millón de tokens de entrada y $30 por 1 millón de tokens de salida, y Claude Opus 4.7 a $5 por 1 millón de tokens de entrada y $25 por 1 millón de tokens de salida.
No conviene asumir que todos los endpoints tengan la misma ventana de contexto o los mismos límites. Mashable lista ventanas de contexto de 1 millón para DeepSeek V4, GPT-5.5 y Claude Opus 4.7 en su comparación de precios, mientras que una ficha de OpenRouter para DeepSeek V4 Pro muestra 256K tokens máximos y 66K tokens máximos de salida. Antes de pasar a producción, hay que confirmar proveedor, variante exacta y modo de razonamiento.
GPT-5.5 es la opción más segura si la decisión se guía por la clasificación agregada disponible. Artificial Analysis sitúa GPT-5.5 xhigh en 60 y GPT-5.5 high en 59, los dos primeros puestos del Intelligence Index en el fragmento aportado.
También destaca en dos filas compartidas de VentureBeat: 82,7 % en Terminal-Bench 2.0 y 84,4 % en BrowseComp para GPT-5.5 base, con GPT-5.5 Pro en 90,1 % en BrowseComp cuando esa variante aparece.
Claude Opus 4.7 queda muy cerca de GPT-5.5 en el ranking agregado, con 57 en el Intelligence Index de Artificial Analysis para el modo Adaptive Reasoning Max Effort. En la tabla compartida de VentureBeat, lidera frente a GPT-5.5 y DeepSeek-V4-Pro-Max en GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas.
Anthropic también reporta en su material de lanzamiento resultados internos de agente de investigación: un empate en la mejor puntuación global de 0,715 en seis módulos y 0,813 en General Finance frente a 0,767 de Opus 4.6. Como son métricas internas, sirven como contexto, no como sustituto de una evaluación independiente.
La ventaja más evidente de DeepSeek V4 es el precio. En la comparación de Mashable, sus precios de entrada y salida quedan muy por debajo de GPT-5.5 y Claude Opus 4.7: $1,74 y $3,48 por 1 millón de tokens, frente a $5/$30 para GPT-5.5 y $5/$25 para Claude Opus 4.7.
DeepSeek V4 Pro también presenta métricas de código potentes, entre ellas 93,5 % en LiveCodeBench, Codeforces 3206, 80,6 % en SWE-Bench Verified y 76,2 % en SWE-Bench Multilingual en la ficha de Together AI. El matiz es que DeepSeek-V4-Pro-Max queda por detrás del mejor resultado de GPT-5.5 o Claude Opus 4.7 en las filas compartidas de VentureBeat, incluso cuando se acerca en BrowseComp.
Kimi K2.6 es más difícil de colocar en una clasificación directa de cuatro modelos porque las tablas más centradas en Kimi lo comparan principalmente con GPT-5.4 y Claude Opus 4.6, no con GPT-5.5 y Claude Opus 4.7. Aun así, las señales no son menores: OpenRouter lista Kimi K2.6 con 53,9 en Intelligence, 47,1 en Coding y 66,0 en Agentic, mientras Verdent lista 80,2 % en SWE-Bench Verified y 89,6 % en LiveCodeBench v6.
La conclusión no es que Kimi K2.6 esté descartado. Es que la evidencia directa es más fina. Si su precio, ruta de despliegue o comportamiento agéntico encaja con tu stack, merece evaluación; las fuentes disponibles no bastan para nombrarlo ganador global frente a GPT-5.5 o Claude Opus 4.7.
Elige GPT-5.5 si tu criterio principal es la mejor señal agregada de inteligencia disponible. Elige Claude Opus 4.7 si tu trabajo se parece a las filas de razonamiento difícil e ingeniería de software donde lidera, como GPQA Diamond, HLE sin herramientas, SWE-Bench Pro y MCP Atlas.
Elige DeepSeek V4 si el costo-rendimiento es central y puedes validar la variante concreta que vas a usar; su precio API listado es mucho más bajo que el de GPT-5.5 y Claude Opus 4.7, y DeepSeek V4 Pro tiene métricas de código fuertes.
Trata Kimi K2.6 como un candidato creíble para coding y agentes, pero no como ganador global probado frente a GPT-5.5 o Claude Opus 4.7 con la evidencia directa disponible.
Comments
0 comments