Con los benchmarks públicos disponibles, esta no es una carrera con una foto de llegada clara. GPT-5.5 y Claude Opus 4.7 aparecen juntos en más tablas comparables; Kimi K2.6 combina cifras de ficha de modelo y de entornos de evaluación separados; y para DeepSeek V4 faltan valores comunes en varios benchmarks de programación usados aquí [1][
2][
5][
6].
La lectura útil no es elegir el modelo más famoso, sino decidir cuál probar primero para cada trabajo real: terminal, reparación de código, navegación web, contexto multimodal o llamadas masivas de API.
La respuesta rápida
- Agentes de terminal y línea de comandos: GPT-5.5 es el candidato inicial. OpenAI reporta 82,7 % en Terminal-Bench 2.0; las tablas públicas citan 69,4 % para Claude Opus 4.7 y 66,7 % para Kimi K2.6 [
19][
8][
13][
6].
- Reparación de código e issues reales de GitHub: Claude Opus 4.7 parte mejor. Se reportan 64,3 % en SWE-Bench Pro y 87,6 % en SWE-Bench Verified, por encima del 58,6 % de GPT-5.5 en SWE-Bench Pro [
27][
19].
- Contextos largos con texto, imagen y vídeo: Kimi K2.6 merece entrar en la lista. Se presenta con soporte para entrada de texto, imagen y vídeo, además de una ruta de contexto de 256k [
7].
- Procesamiento masivo con presupuesto ajustado: DeepSeek V4 llama la atención por precio. Mashable recoge una tarifa de API de US$ 1,74 por millón de tokens de entrada y US$ 3,48 por millón de tokens de salida, frente a US$ 5 y US$ 30 en GPT-5.5, y US$ 5 y US$ 25 en Claude Opus 4.7 [
3].
Tabla comparativa de benchmarks
El símbolo — no significa que el modelo no pueda hacer esa tarea. Solo indica que, en las fuentes disponibles para esta comparación, no hay una cifra pública directamente alineada con ese benchmark.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Cómo leerlo |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 66,7 % [ | — | Para flujos largos de terminal, GPT-5.5 tiene el valor público más alto. |
| SWE-Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 % [ | — | En reparación de código e issues de GitHub, Claude Opus 4.7 va por delante. |
| SWE-Bench Verified | — | 87,6 % [ | 80,2 % [ | — | Con las fuentes disponibles, hay cifras claras para Claude y Kimi. |
| GPQA Diamond | 93,6 % [ | 94,2 % [ | — | — | GPT-5.5 y Claude están muy cerca; Claude aparece ligeramente arriba. |
| HLE con herramientas | 52,2 % [ | 54,7 % [ | 54,0 % [ | — | Claude y Kimi aparecen por encima, aunque la cifra de Kimi puede venir de otro entorno de evaluación [ |
| BrowseComp | 84,4 % [ | 79,3 % [ | — | — | En navegación y búsqueda web, GPT-5.5 lidera en los valores publicados. |
| OSWorld-Verified | 78,7 % [ | 78,0 % [ | — | — | La diferencia entre GPT-5.5 y Claude Opus 4.7 es pequeña. |
| MCP Atlas | 75,3 % [ | 79,1 % [ | — | — | En evaluación de herramientas y MCP, Claude Opus 4.7 aparece por delante. |
GPT-5.5: fuerte cuando el trabajo vive en la terminal
OpenAI presenta GPT-5.5 como su modelo más fuerte para agentes de programación. Según la compañía, Terminal-Bench 2.0 mide flujos complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas; en esa prueba GPT-5.5 alcanza 82,7 %. La misma publicación reporta 58,6 % en SWE-Bench Pro, un benchmark centrado en resolver issues reales de GitHub [19].
Eso lo convierte en una opción lógica para probar primero si el producto depende de sesiones largas de terminal: ejecutar scripts, reproducir fallos de CI, crear o modificar archivos, lanzar comandos en sandbox y corregir errores en varios pasos. La cautela está en no extrapolar demasiado: en SWE-Bench Pro, Claude Opus 4.7 aparece con 64,3 %, por encima del 58,6 % de GPT-5.5 [19][
27].
Claude Opus 4.7: mejor punto de partida para reparar y revisar código
Claude Opus 4.7 muestra su mejor cara en tareas de reparación, revisión y resolución de problemas de código. DataCamp resume que fue evaluado en 14 benchmarks que cubren programación, razonamiento, uso de herramientas, uso de computadora y razonamiento visual; para código, reporta 64,3 % en SWE-Bench Pro y 87,6 % en SWE-Bench Verified [27].
En la comparación común con GPT-5.5, Claude también aparece por delante en GPQA Diamond, con 94,2 % frente a 93,6 %, y en MCP Atlas, con 79,1 % frente a 75,3 % [8][
13]. En cambio, GPT-5.5 lidera en Terminal-Bench 2.0 y BrowseComp [
8][
13][
19]. La conclusión práctica: Claude Opus 4.7 no gana todo, pero sí es el primer modelo que conviene probar cuando el objetivo es arreglar una base de código, revisar cambios o resolver incidencias reales de repositorios.
Kimi K2.6: contexto multimodal largo, con letra pequeña en los benchmarks
Kimi K2.6 aparece con 58,6 % en SWE-Bench Pro y 80,2 % en SWE-Bench Verified; otra guía lista 66,7 % en Terminal-Bench 2.0 y 54,0 % en HLE con herramientas [1][
6]. El matiz es importante: esas cifras se atribuyen a la ficha oficial de Moonshot AI, y para SWE-Bench Pro se menciona un entorno interno de evaluación de Moonshot [
6].
Por eso, aunque Kimi K2.6 y GPT-5.5 compartan el número 58,6 % en SWE-Bench Pro, no conviene tratarlo automáticamente como un empate bajo condiciones idénticas [1][
6][
19]. Donde Kimi sí tiene un ángulo claro es en entrada multimodal y contexto largo: se presenta con soporte para texto, imagen y vídeo, además de una ruta de contexto de 256k [
7]. Si el producto necesita leer documentos extensos, capturas, imágenes o vídeo dentro de una misma sesión, Kimi K2.6 merece una prueba separada.
DeepSeek V4: precio atractivo, pero con controles de fiabilidad
DeepSeek V4 no encaja tan fácilmente en la misma tabla de Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified o GPQA Diamond, al menos con las fuentes disponibles aquí. Lo que sí hay son señales útiles desde otros ángulos. Artificial Analysis reporta que DeepSeek V4 Pro Max logra -10 en AA-Omniscience, una mejora de 11 puntos frente a V3.2, mientras que V4 Flash Max marca -23. La misma fuente informa tasas de alucinación muy altas: 94 % para V4 Pro y 96 % para V4 Flash, con la interpretación de que, cuando no saben la respuesta, casi siempre responden de todos modos [2].
En arquitectura, DataCamp describe DeepSeek V4 como un modelo Mixture of Experts. La versión Pro tendría 1,6 billones de parámetros totales y 49.000 millones activos; la versión Flash, 284.000 millones totales y 13.000 millones activos [4]. En precio, la ventaja es más visible: Mashable recoge US$ 1,74 por millón de tokens de entrada y US$ 3,48 por millón de tokens de salida para DeepSeek V4, por debajo de GPT-5.5 y Claude Opus 4.7 en esa comparación [
3].
La lectura práctica es clara: DeepSeek V4 puede ser candidato para procesos de alto volumen, tareas donde el costo manda y flujos internos con verificación automática. Pero si la exactitud es crítica, conviene añadir evaluación propia, posprocesado, detección de fallos y límites de uso, especialmente por las tasas de alucinación reportadas [2][
3][
4].
Guía de elección por caso de uso
| Caso de uso | Modelo que probaría primero | Motivo |
|---|---|---|
| Automatización larga de terminal, scripts, agentes de shell, reproducción de CI | GPT-5.5 | Lidera Terminal-Bench 2.0 con 82,7 %, frente a 69,4 % de Claude Opus 4.7 y 66,7 % de Kimi K2.6 [ |
| Resolución de issues reales de GitHub, reparación de código, tareas tipo SWE-Bench | Claude Opus 4.7 | Reporta 64,3 % en SWE-Bench Pro y 87,6 % en SWE-Bench Verified [ |
| Navegación web y búsqueda asistida | GPT-5.5 | BrowseComp muestra 84,4 % para GPT-5.5 y 79,3 % para Claude Opus 4.7 [ |
| Integración de herramientas, flujos MCP y tareas con tool calling | Claude Opus 4.7 | En MCP Atlas, Claude Opus 4.7 aparece con 79,1 % frente a 75,3 % de GPT-5.5 [ |
| Contextos largos con texto, imagen y vídeo | Kimi K2.6 | Se presenta con entrada de texto, imagen y vídeo, y una ruta de contexto de 256k [ |
| Llamadas masivas de API con presupuesto ajustado | DeepSeek V4 | Su precio por tokens es menor en la comparación de Mashable, aunque debe ponderarse junto con las tasas de alucinación reportadas por Artificial Analysis [ |
Por qué un ranking único puede engañar
Primero, no todos los modelos están medidos en la misma cancha. GPT-5.5 y Claude Opus 4.7 tienen más benchmarks comunes, pero Kimi K2.6 combina cifras de ficha de modelo y de entornos propios, mientras que DeepSeek V4 no tiene suficientes filas directamente comparables en esta selección [1][
2][
5][
6].
Segundo, el nombre del benchmark no garantiza una metodología idéntica. Un análisis de LLM Stats resume que las puntuaciones de GPT-5.5 y Claude Opus 4.7 son comparables en forma, pero no necesariamente en metodología [5]. Anthropic, por ejemplo, detalla que en Terminal-Bench 2.0 usó el harness Terminus-2, con pensamiento desactivado y condiciones específicas de recursos [
31].
Tercero, una puntuación no equivale a calidad de producto. En una integración real importan la forma de fallar, la tasa de alucinación, la latencia, el costo, la estabilidad de las llamadas a herramientas, la seguridad y la reproducibilidad de logs. ExplainX advierte que las definiciones de leaderboard, los prompts y las políticas de herramientas pueden mover las puntuaciones, por lo que estos datos deben tratarse como una instantánea y no como sustituto de un entorno propio de evaluación [28].
Veredicto
Con la evidencia pública reunida, la estrategia más sensata es probar GPT-5.5 primero para agentes de terminal, Claude Opus 4.7 para reparación de código tipo SWE-Bench, Kimi K2.6 para contexto largo multimodal y DeepSeek V4 para cargas masivas sensibles al costo [19][
27][
7][
3].
Lo que no conviene hacer es coronar un campeón absoluto. Antes de mover un producto a cualquiera de estos modelos, lo prudente es replicar las condiciones reales: los mismos prompts, las mismas herramientas, el mismo presupuesto de razonamiento, los mismos criterios de fallo y una medición propia de costo y fiabilidad [5][
28][
31].




