La forma más útil de comparar GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4-Pro no es preguntar cuál gana en abstracto. La pregunta práctica es otra: qué modelo conviene probar primero para cada tipo de trabajo. El error más común es meter en la misma tabla cifras de fuentes distintas, con permisos de herramientas distintos y con niveles de effort distintos, como si fueran una clasificación deportiva perfectamente homogénea.
Con los datos públicos disponibles, la lectura más defendible es por casos de uso: GPT-5.5 merece prioridad en workflows de terminal y CLI; Claude Opus 4.7 en SWE-Bench, visión y computer use; DeepSeek V4-Pro en conocimiento, matemáticas y ruta de modelos abiertos; y Kimi K2.6 entra en la lista corta si el equipo ya trabaja con agentes multimodales sobre Cloudflare Workers AI.[27][
4][
1][
5][
64][
36]
Foto rápida de benchmarks: qué cifras sí se pueden citar
La tabla resume solo los números que aparecen en las fuentes disponibles. Un guion no significa que el modelo no pueda hacer esa tarea: significa que esta revisión no tiene una cifra comparable y citable en esa columna. Además, no todos los resultados proceden del mismo harness oficial, así que sirven para filtrar candidatos, no para proclamar un líder universal.
| Prueba o tarea | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | Cómo leerlo en la práctica |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 66,7 [ | 67,9 [ | Entre las cifras citables, GPT-5.5 es el resultado más fuerte para workflows de línea de comandos. |
| SWE-Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 [ | 55,4 [ | Claude lidera en esta columna, aunque la cifra procede de una recopilación secundaria que cita a AWS. |
| SWE-Bench Verified / Resolved | — | 87,6 % [ | 80,2 [ | 80,6 [ | Claude aparece arriba, pero falta una cifra comparable de GPT-5.5 y la nomenclatura no es idéntica en todas las fuentes. |
| Graphwalks 256k: BFS / parents | 73,7 / 90,1 [ | 76,9 / 93,6 [ | — | — | En las dos filas de 256k de la tabla de contexto largo de OpenAI, Claude Opus 4.7 queda por encima de GPT-5.5. |
| Graphwalks 1M: BFS / parents | 45,4 / 58,5 [ | — | — | — | La tabla de OpenAI sí permite hablar del rendimiento de GPT-5.5 a 1 millón de tokens; el campo de comparación a 1M en esa tabla está marcado como Opus 4.6, por lo que no conviene usarlo para juzgar Opus 4.7. |
| Conocimiento y matemáticas | — | — | — | GPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 [ | DeepSeek V4-Pro aporta la ficha pública más completa en esta categoría. |
| Visión, capturas y computer use | — | Mejoras en cargas con mucha visión; coordenadas 1:1 con píxeles reales; 98,5 % de agudeza visual en XBOW [ | Cloudflare lo describe como modelo agentic multimodal nativo, pero sin una cifra visual comparable en las fuentes usadas [ | — | La evidencia más sólida para interfaces visuales y uso de ordenador está del lado de Claude Opus 4.7. |
Por qué no conviene ordenar los cuatro en un ranking único
La primera razón es la calidad y el tipo de fuente. Las cifras de GPT-5.5 en Terminal-Bench 2.0 y SWE-Bench Pro llegan a través de Yahoo Finance/Investing.com, que atribuye los resultados de benchmark a OpenAI; las de Claude Opus 4.7 en SWE-Bench Pro, SWE-Bench Verified y Terminal-Bench 2.0 proceden de una recopilación secundaria que cita a AWS; y varias cifras de Kimi K2.6 y DeepSeek V4-Pro salen de fichas de modelo en Hugging Face.[27][
4][
84][
64]
La segunda razón es que el acceso a herramientas cambia el resultado. Mashable publicó cifras de HLE en las que, sin herramientas, Claude Opus 4.7 obtiene 46,9 % y GPT-5.4 Pro 42,7 %; con herramientas, GPT-5.4 Pro sube a 58,7 % y Claude Opus 4.7 queda en 54,7 %. No son cifras de GPT-5.5, pero sirven como aviso metodológico: comparar resultados con tools y without tools en una misma tabla puede alterar el orden relativo.[6]
La tercera razón es que las variantes importan. DeepSeek V4 se presenta en versiones V4-Pro y V4-Flash; Yahoo Finance recoge que V4-Flash se plantea como una opción más eficiente y económica, mientras que los datos detallados citados aquí corresponden sobre todo a DeepSeek-V4-Pro.[57][
64] Artificial Analysis también separa GPT-5.5 en variantes de effort y señala que GPT-5.5 xhigh cuesta alrededor de un 20 % más que su predecesor en su Index, pero un 30 % menos que Claude Opus 4.7 max.[
24]
GPT-5.5: especialmente fuerte cuando el trabajo vive en la terminal
El punto más claro a favor de GPT-5.5 en esta comparación es Terminal-Bench 2.0. Yahoo Finance/Investing.com informa de que, según resultados proporcionados por OpenAI, GPT-5.5 alcanza 82,7 % en Terminal-Bench 2.0, una prueba diseñada para medir workflows de línea de comandos; el mismo reporte sitúa a GPT-5.5 en 58,6 % en SWE-Bench Pro, benchmark orientado a evaluar la resolución de incidencias de GitHub.[27]
OpenAI también aporta una tabla de contexto largo con números relevantes: GPT-5.5 obtiene 73,7 en Graphwalks BFS 256k y 45,4 en Graphwalks BFS 1M; en Graphwalks parents marca 90,1 en 256k y 58,5 en 1M. En esa misma tabla, GPT-5.4 queda en 9,4 en Graphwalks BFS 1M, frente al 45,4 de GPT-5.5.[21]
En evaluaciones de terceros, Artificial Analysis califica a GPT-5.5 como un nuevo modelo líder y afirma que OpenAI encabeza cinco de sus evaluaciones principales y queda segundo, por detrás de Gemini 3.1 Pro Preview, en otras tres. El mismo análisis indica que GPT-5.5 xhigh usa cerca de un 40 % menos de tokens de salida que su predecesor al ejecutar su Index.[24]
Dónde probarlo primero: automatización con CLI, agentes que trabajan en terminal, búsqueda o razonamiento sobre contextos largos, y workflows agentic de programación donde el coste por tokens de salida sea una variable importante.[27][
21][
24]
Claude Opus 4.7: buen candidato para software engineering, visión y uso de interfaces
La documentación oficial de Anthropic es especialmente clara en visión. Sus notas de API indican que el cambio debería liberar mejoras de rendimiento en workloads con mucha carga visual, sobre todo en computer use, capturas de pantalla, artifacts y comprensión de documentos; también explican que las coordenadas del modelo se corresponden 1:1 con píxeles reales, sin tener que calcular factores de escala.[1]
La página de lanzamiento de Anthropic cita además un benchmark de agudeza visual de XBOW: Claude Opus 4.7 alcanza 98,5 %, frente al 54,5 % de Opus 4.6.[5] Eso convierte a Claude Opus 4.7 en el candidato con mejor respaldo directo para tareas de lectura de capturas, comprensión de layouts de documentos, navegación por interfaces de escritorio y agentes de computer use.[
1][
5]
En programación, una recopilación indica que AWS cita a Claude Opus 4.7 con 64,3 % en SWE-Bench Pro, 87,6 % en SWE-Bench Verified y 69,4 % en Terminal-Bench 2.0.[4] Estas cifras colocan a Claude por delante en las columnas SWE-Bench Pro y Verified/Resolved de esta revisión, aunque la fuente está un escalón por debajo de una tabla oficial primaria; antes de adoptarlo en producción, lo prudente es repetir pruebas sobre los repositorios propios.
Hay, además, una advertencia operativa importante: Anthropic recuerda que las imágenes de alta resolución consumen más tokens y recomienda reducir la resolución antes de enviarlas a Claude si ese detalle adicional no es necesario.[1]
Dónde probarlo primero: reparación de incidencias en repositorios, agentes de programación, lectura de capturas y documentos, computer-use agents y tareas de interfaz que requieran coordenadas de píxel precisas.[1][
4][
5]
Kimi K2.6: candidato natural si el despliegue pasa por Workers AI
El registro de cambios de Cloudflare señala que Moonshot AI Kimi K2.6 está disponible en Workers AI desde el 20 de abril de 2026, con el identificador @cf/moonshotai/kimi-k2.6, y que Cloudflare lo ofrece con soporte Day 0 en colaboración con Moonshot AI.[36]
La misma fuente describe Kimi K2.6 como un modelo agentic multimodal nativo, enfocado en long-horizon coding, diseño impulsado por código, ejecución autónoma proactiva y orquestación de tareas basada en swarm. Cloudflare también indica que usa una arquitectura Mixture-of-Experts con 1T de parámetros totales y 32B parámetros activos por token.[36]
En resultados públicos, la ficha de Hugging Face de Kimi K2.6 lista 66,7 en Terminal-Bench 2.0, 58,6 en SWE-Bench Pro y 76,7 en SWE-Bench Multilingual.[84] MarkTechPost informa además de 80,2 en SWE-Bench Verified para Kimi K2.6.[
45]
Dónde probarlo primero: equipos que ya despliegan sobre Cloudflare Workers AI y necesitan workflows multimodales con agentes, long-horizon coding, diseño guiado por código u orquestación multiagente.[36][
84]
DeepSeek V4-Pro: ficha fuerte para conocimiento, matemáticas y modelos abiertos
En las fuentes disponibles, DeepSeek V4 aparece dividido en V4-Pro y V4-Flash. Yahoo Finance informa de que DeepSeek afirma que V4-Pro supera claramente a otros modelos open-source en benchmarks de conocimiento del mundo y solo queda ligeramente por debajo del modelo cerrado Gemini-Pro-3.1; el mismo reporte describe V4-Flash como una alternativa más eficiente y económica.[57]
La ficha de DeepSeek-V4-Pro en Hugging Face ofrece una de las colecciones de métricas más completas de esta comparación: GPQA Diamond 90,1; GSM8K 92,6; HLE 37,7; MMLU-Pro 87,5; SWE-Bench Pro 55,4; SWE-Bench Verified/Resolved 80,6; y TerminalBench 2.0 67,9.[64]
CNBC informa de que DeepSeek dijo haber optimizado V4 para herramientas de agentes como Claude Code y OpenClaw. En el mismo artículo, Wei Sun, analista principal de IA en Counterpoint, interpreta el perfil de benchmarks de V4 como señal de que podría ofrecer una capacidad agentic destacada a un coste significativamente menor.[58]
Dónde probarlo primero: equipos que priorizan una ruta de modelos abiertos, benchmarks de conocimiento y matemáticas, relación coste-capacidad en agentes o evaluación en entornos locales o autogestionados.[58][
64]
Lista corta por tipo de trabajo
- Automatización de terminal y agentes de línea de comandos: empezar por GPT-5.5. Entre las cifras citables, GPT-5.5 alcanza 82,7 % en Terminal-Bench 2.0, por encima de Claude Opus 4.7 con 69,4 %, DeepSeek V4-Pro con 67,9 y Kimi K2.6 con 66,7.[
27][
4][
64][
84]
- Reparación de software y tareas tipo SWE-Bench Pro: empezar por Claude Opus 4.7, pero repetir con repositorios propios. En los datos citables, Claude Opus 4.7 figura con 64,3 %, mientras GPT-5.5 y Kimi K2.6 aparecen con 58,6 y DeepSeek V4-Pro con 55,4; aun así, la cifra de Claude procede de una fuente secundaria.[
4][
27][
84][
64]
- Capturas, documentos, interfaces visuales y computer use: Claude Opus 4.7 primero. Anthropic documenta mejoras en workflows con mucha visión, computer use y coordenadas 1:1 con píxeles reales, y su página de lanzamiento cita un 98,5 % en la prueba de agudeza visual de XBOW.[
1][
5]
- Conocimiento, matemáticas y ruta de modelos abiertos: incluir DeepSeek V4-Pro en la lista corta. Su ficha de Hugging Face presenta métricas de GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench y TerminalBench 2.0.[
64]
- Workflows agentic multimodales sobre Workers AI: probar Kimi K2.6. Cloudflare ofrece soporte Day 0 para Kimi K2.6 en Workers AI y lo posiciona como modelo multimodal agentic para long-horizon coding y orquestación de tareas basada en swarm.[
36]
Antes de decidir, repite la prueba con tus propias condiciones
Para obtener una conclusión defendible dentro de una empresa o equipo técnico, conviene repetir las pruebas con el mismo ID de modelo o versión de API, la misma longitud de contexto, los mismos permisos de herramientas, el mismo reasoning effort, la misma temperatura, el mismo presupuesto de tokens y el mismo sistema de puntuación. La diferencia entre ejecutar con herramientas o sin ellas no es un detalle menor: el ejemplo de HLE publicado por Mashable muestra que puede cambiar el orden relativo de los modelos.[6]
El coste también debe medirse junto con la capacidad. Artificial Analysis indica que GPT-5.5 xhigh cuesta alrededor de un 20 % más que su predecesor al ejecutar su Index, pero un 30 % menos que Claude Opus 4.7 max, y que usa cerca de un 40 % menos de tokens de salida que su predecesor.[24] Anthropic, por su parte, advierte de que las imágenes de alta resolución consumen más tokens.[
1] En producción, la velocidad, el consumo de tokens, la tasa de éxito al llamar herramientas y la capacidad de corregir errores suelen pesar tanto como una única cifra de benchmark.
Conclusión
La comparación más honesta no es un podio único. Es una matriz de decisión: GPT-5.5 para flujos de terminal, Claude Opus 4.7 para SWE-Bench y tareas de visión/computer use, DeepSeek V4-Pro para conocimiento y matemáticas con una ficha pública amplia, y Kimi K2.6 para equipos que quieran probar agentes multimodales en Cloudflare Workers AI.[27][
4][
1][
5][
64][
36]
Un ranking global solo sería razonable cuando los cuatro modelos tengan resultados completos en el mismo harness, con la misma versión, los mismos permisos de herramientas y las mismas condiciones de ejecución. Hasta entonces, la mejor elección no es el supuesto ganador general, sino el modelo que encaje con el trabajo real que necesitas resolver.




