Comparar GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 como si fueran corredores en una sola carrera puede llevar a una mala decisión. Las cifras públicas vienen de fuentes, configuraciones y arneses de prueba distintos. LLM Stats, por ejemplo, advierte que parte de las puntuaciones de GPT-5.5 y Claude Opus 4.7 son autodeclaradas por los proveedores en niveles de razonamiento alto: sirven para ver tendencias, pero no equivalen a una metodología idéntica.[3]
La lectura más útil para un equipo de producto o ingeniería es otra: elegir primero qué tarea se quiere optimizar. Si el objetivo es un agente que navega, usa terminal y coordina herramientas, GPT-5.5 aparece como el candidato de referencia. Si la prioridad es razonamiento difícil, revisión o decisiones con poco margen de error, Claude Opus 4.7 gana peso. Si el problema es escalar llamadas API sin disparar el presupuesto, DeepSeek V4 es el primer modelo que conviene probar. Y si se explora un coding agent open source, Kimi K2.6 debe entrar en la lista, aunque no haya todavía una comparación pública completa y homogénea contra los otros tres.[3][
4][
5][
7]
La respuesta rápida: qué probar primero
| Necesidad principal | Modelo que conviene probar primero | Por qué |
|---|---|---|
| Navegación web agentic, automatización de terminal, flujos con varias herramientas | GPT-5.5 | En BrowseComp marca 84,4 % y en Terminal-Bench 2.0 llega a 82,7 %, por encima de Claude Opus 4.7 y DeepSeek-V4-Pro-Max en los datos resumidos por VentureBeat.[ |
| Razonamiento complejo, revisión, decisiones con bajo margen de error | Claude Opus 4.7 | Lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 %, por delante de GPT-5.5 y DeepSeek-V4-Pro-Max en esa tabla.[ |
| API de alto volumen y sensibilidad al coste | DeepSeek V4 | Sus precios públicos son US$1,74 por millón de tokens de entrada y US$3,48 por millón de tokens de salida, más bajos que los de GPT-5.5 y Claude Opus 4.7 en la misma comparación.[ |
| Experimentos con coding agents open source y flujos largos de desarrollo | Kimi K2.6 | DocsBot lo describe como un modelo agentic multimodal nativo y open source de Moonshot AI, con contexto de 256K; aun así, faltan benchmarks públicos completos y comparables contra los otros tres.[ |
Benchmarks y precios: la foto comparativa
Hay que leer la tabla con una precaución importante: la nomenclatura de DeepSeek no siempre aparece igual. Algunas fuentes de precio hablan de DeepSeek V4 o DeepSeek V4 Pro; algunos benchmarks citan DeepSeek-V4-Pro-Max.[1][
7][
17] Para no mezclar configuraciones, aquí se mantiene el nombre usado por cada fuente.
| Métrica | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4-Pro-Max | Kimi K2.6 |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xhigh 60; high 59.[ | Adaptive Reasoning, Max Effort 57.[ | El resumen disponible no da una puntuación equivalente.[ | El resumen disponible no da una puntuación equivalente.[ |
| BrowseComp | 84,4 %.[ | 79,3 %.[ | DeepSeek-V4-Pro-Max: 83,4 %.[ | No aparece una puntuación pública en la misma comparación. |
| Terminal-Bench 2.0 | 82,7 %.[ | 69,4 %.[ | 67,9 %.[ | 66,70 %, pero en otra comparación con Kimi K2.6, Claude Opus 4.6 y GPT-5.4, no en una prueba a cuatro bandas.[ |
| SWE-Bench Pro | 58,6 %.[ | 64,3 %.[ | DeepSeek V4 Pro: 55,4 %.[ | 58,60 %, pero Verdent indica que usa un harness interno de Moonshot y no compara contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4 en igualdad de condiciones.[ |
| GPQA Diamond | 93,6 %.[ | 94,2 %.[ | DeepSeek-V4-Pro-Max: 90,1 %.[ | No aparece una puntuación pública en la misma comparación. |
| Humanity’s Last Exam, sin herramientas | 41,4 %; GPT-5.5 Pro figura con 43,1 %.[ | 46,9 %.[ | 37,7 %.[ | No aparece una puntuación pública en la misma comparación. |
| Precio API, entrada / salida por millón de tokens | US$5 / US$30; ventana de contexto de 1M.[ | US$5 / US$25; ventana de contexto de 1M.[ | US$1,74 / US$3,48; ventana de contexto de 1M.[ | Las fuentes dadas no ofrecen precio equivalente; DocsBot resume su contexto como 256K.[ |
GPT-5.5: el candidato fuerte para agentes y uso de herramientas
En el resumen visible de Artificial Analysis, GPT-5.5 ocupa las dos primeras posiciones del Intelligence Index: GPT-5.5 xhigh con 60 y GPT-5.5 high con 59. Claude Opus 4.7, en modo Adaptive Reasoning, Max Effort, aparece con 57.[2] Eso permite una conclusión limitada: en ese índice visible, GPT-5.5 está por delante de Claude Opus 4.7. No permite, en cambio, construir un ranking total de los cuatro modelos, porque DeepSeek V4 y Kimi K2.6 no aparecen con puntuaciones equivalentes en el mismo resumen.[
2]
Donde GPT-5.5 muestra una ventaja más accionable es en tareas agentic. BrowseComp mide navegación web por agentes, especialmente búsqueda de información en entornos muy acotados; VentureBeat recoge 84,4 % para GPT-5.5, 83,4 % para DeepSeek-V4-Pro-Max y 79,3 % para Claude Opus 4.7.[7] En Terminal-Bench 2.0, la distancia es mayor: GPT-5.5 llega a 82,7 %, frente a 69,4 % de Claude Opus 4.7 y 67,9 % de DeepSeek.[
7] Yahoo / Investing.com también describe Terminal-Bench 2.0 como una prueba de flujos de línea de comandos y cita el 82,7 % de GPT-5.5.[
31]
OpenAI, además, atribuye a GPT-5.5 resultados altos en pruebas de trabajo con herramientas: 84,9 % en GDPval, 78,7 % en OSWorld-Verified y 98,0 % en Tau2-bench Telecom sin ajuste de prompt.[23] Para un equipo que está construyendo agentes que abren páginas, ejecutan comandos, manipulan archivos o pasan de una herramienta a otra, GPT-5.5 es el punto de referencia más sólido con los datos disponibles.[
7][
23]
Claude Opus 4.7: más convincente en razonamiento y revisión
Claude Opus 4.7 aparece especialmente fuerte en pruebas de razonamiento difícil. En la tabla resumida por VentureBeat, lidera GPQA Diamond con 94,2 %, por encima de GPT-5.5 con 93,6 % y DeepSeek-V4-Pro-Max con 90,1 %. También encabeza Humanity’s Last Exam sin herramientas con 46,9 %, frente al 41,4 % de GPT-5.5, el 43,1 % de GPT-5.5 Pro y el 37,7 % de DeepSeek-V4-Pro-Max.[7]
La lectura de LLM Stats va en la misma dirección. En los 10 benchmarks que ambos proveedores reportan, Claude Opus 4.7 lidera 6 y GPT-5.5 lidera 4; Claude destaca más en pruebas de razonamiento y revisión, mientras GPT-5.5 se impone en pruebas largas de uso de herramientas.[3]
En desarrollo de software, el matiz es importante. DataCamp recoge en SWE-Bench Pro un 64,3 % para Claude Opus 4.7, 58,6 % para GPT-5.5 y 55,4 % para DeepSeek V4 Pro.[17] Eso favorece a Claude en esa prueba concreta. Pero si el flujo real incluye terminal, navegación, ejecución de comandos y corrección iterativa, el resultado puede depender más del harness, las herramientas disponibles y la forma de evaluar que de una sola cifra de SWE-Bench.[
3][
7][
31]
DeepSeek V4: la opción de coste que no se puede ignorar
La ventaja más clara de DeepSeek V4 está en el precio. Mashable resume su API en US$1,74 por millón de tokens de entrada y US$3,48 por millón de tokens de salida, con ventana de contexto de 1 millón de tokens. En la misma comparación, GPT-5.5 figura en US$5 por millón de tokens de entrada y US$30 por millón de salida, y Claude Opus 4.7 en US$5 y US$25, también con ventana de contexto de 1 millón.[1]
DataCamp usa una lectura similar: DeepSeek V4 Pro aparece con US$1,74 / US$3,48 por millón de tokens de entrada y salida, GPT-5.5 con US$5 / US$30 y Claude Opus 4.7 con US$5 / US$25, con contextos cercanos a 1M tokens.[17] Si una aplicación genera muchas llamadas, muchas respuestas largas o grandes volúmenes de procesamiento automático, esa diferencia puede cambiar por completo la economía del producto.
Lo relevante es que DeepSeek no solo compite por precio. En BrowseComp, DeepSeek-V4-Pro-Max marca 83,4 %, muy cerca del 84,4 % de GPT-5.5 y por encima del 79,3 % de Claude Opus 4.7 en esa tabla.[7] Su punto débil visible está en Terminal-Bench 2.0, donde 67,9 % queda lejos del 82,7 % de GPT-5.5.[
7] Por eso, DeepSeek V4 parece especialmente atractivo como ruta API económica para tareas en las que el coste pesa mucho y el rendimiento se pueda validar con pruebas propias.[
1][
7][
17]
Kimi K2.6: prometedor para coding agents, pero necesita evaluación propia
Kimi K2.6 es el más difícil de colocar en una comparativa justa. DocsBot lo describe como el último modelo agentic multimodal nativo y open source de Moonshot AI, orientado a long-horizon coding, diseño impulsado por código, ejecución autónoma y orquestación de tareas con enjambres de agentes. También resume que mantiene una arquitectura MoE de 1T parámetros con 32B activados y contexto de 256K.[5]
Sus cifras de coding merecen atención, pero no deben mezclarse sin más con las de los otros tres modelos. Verdent recoge para Kimi K2.6 58,60 % en SWE-Bench Pro, 80,20 % en SWE-Bench Verified, 66,70 % en Terminal-Bench 2.0 y 89,60 % en LiveCodeBench v6. La propia fuente indica que los números de Kimi K2.6 vienen de la model card oficial de Moonshot AI y que SWE-Bench Pro usa un harness interno de Moonshot; además, la comparación principal es contra Claude Opus 4.6 y GPT-5.4, no contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4 en el mismo banco de pruebas.[4]
La conclusión práctica: Kimi K2.6 puede ser muy interesante si el equipo quiere experimentar con agentes de programación open source, despliegue propio o flujos largos de desarrollo. Pero, con la evidencia pública disponible, no conviene colocarlo en un ranking global a cuatro bandas como si todas las métricas fueran equivalentes.[4][
5]
Una arquitectura más realista: no elegir uno, sino enrutar
Para muchos productos, la pregunta no debería ser qué modelo comprar para todo, sino cómo diseñar un sistema que use cada modelo donde tiene sentido. Un esquema razonable sería:
- GPT-5.5 como referencia de gama alta para agentes. Sus cifras en BrowseComp, Terminal-Bench 2.0 y benchmarks de trabajo con herramientas como GDPval, OSWorld-Verified y Tau2-bench Telecom lo convierten en el primer candidato para flujos con navegación, terminal y varias herramientas.[
7][
23]
- Claude Opus 4.7 para razonamiento, revisión y tareas de bajo margen de error. Sus resultados en GPQA Diamond, Humanity’s Last Exam sin herramientas y la lectura de LLM Stats lo favorecen en pruebas de razonamiento pesado y revisión.[
7][
3]
- DeepSeek V4 para reducir coste en rutas de alto volumen. Sus precios por token son más bajos que los de GPT-5.5 y Claude Opus 4.7 en las fuentes disponibles, y su BrowseComp está cerca del de GPT-5.5.[
1][
7][
17]
- Kimi K2.6 para el laboratorio de coding agents open source. Tiene señales interesantes en coding y agentes, pero necesita validación con el repositorio, la herramienta y el entorno de despliegue del propio equipo.[
4][
5]
Límites de esta comparación
- No todos los modelos tienen benchmarks en la misma pista. GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max aparecen juntos en algunas tablas; Kimi K2.6 procede sobre todo de otra comparación con Claude Opus 4.6 y GPT-5.4.[
7][
4]
- Las configuraciones importan. Artificial Analysis distingue GPT-5.5 xhigh y high, y Claude Opus 4.7 Adaptive Reasoning, Max Effort; VentureBeat usa DeepSeek-V4-Pro-Max. No hay que asumir que todo eso equivale al modo API por defecto.[
2][
7]
- Los datos autodeclarados y los de terceros no son intercambiables. LLM Stats señala que algunas puntuaciones de GPT-5.5 y Claude Opus 4.7 son autodeclaradas en niveles altos de razonamiento y comparables en forma, no en metodología.[
3]
- Un benchmark no sustituye un piloto real. BrowseComp se centra en navegación web agentic, Terminal-Bench 2.0 en flujos de línea de comandos y SWE-Bench Pro en resolución de issues de GitHub; ninguno cubre por sí solo seguridad, latencia, estabilidad, calidad multilingüe, integración o coste total de operación.[
7][
31]
Veredicto
Con los datos públicos visibles, GPT-5.5 es el candidato más fuerte para agentes y uso prolongado de herramientas; Claude Opus 4.7 es de los más convincentes para razonamiento y revisión; DeepSeek V4 destaca por precio y relación rendimiento-coste; y Kimi K2.6 debe evaluarse como opción open source para coding agents, pero todavía no tiene evidencia pública suficiente para entrar en una clasificación completa y justa contra los otros tres.[2][
3][
1][
4][
5]
Antes de cerrar una compra o mover producción, lo sensato es hacer una regresión con tareas reales: mismos prompts, mismas herramientas, mismo contexto, mismos criterios de éxito y medición de coste por resultado útil. Los benchmarks sirven para decidir a quién invitar primero a la prueba; la elección final la deberían marcar el producto, el coste de los errores y la factura de tokens.[3][
7][
31]




