Antes de decidir qué modelo gana, conviene separar tres cosas: datos oficiales, comparativas de terceros y huecos de información. Para GPT-5.5, OpenAI publica cifras concretas en Terminal-Bench 2.0 y SWE-Bench Pro [24]. Para DeepSeek V4, la documentación oficial confirma sobre todo que V4-Pro y V4-Flash están disponibles por API [
25]. En cambio, las comparaciones más directas con Claude Opus 4.7 y Kimi K2.6 en las fuentes disponibles proceden principalmente de análisis externos [
4][
6].
Veredicto rápido por caso de uso
- Coding y resolución de issues: Claude Opus 4.7 sale mejor parado en los valores citados de SWE-Bench, SWE-Bench Verified y CursorBench frente a GPT-5.5 [
4].
- Agentes de terminal y uso de herramientas: GPT-5.5 es el mejor documentado, con 82,7 % en Terminal-Bench 2.0 según OpenAI [
24].
- Agentes de código con presupuesto ajustado: CodeRouter describe Kimi K2.6 como ganador de coste/calidad, con 0,60 USD de entrada y 4,00 USD de salida por millón de tokens [
6].
- DeepSeek V4: V4-Pro y V4-Flash están oficialmente disponibles en la API de DeepSeek, pero no hay en estas fuentes una matriz oficial de benchmarks frente a Kimi K2.6, Claude Opus 4.7 y GPT-5.5 [
25].
Qué permiten afirmar las fuentes
OpenAI define Terminal-Bench 2.0 como una prueba para flujos complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas; GPT-5.5 logra ahí 82,7 % según la propia OpenAI [24]. En SWE-Bench Pro, un benchmark centrado en resolver incidencias reales de GitHub, OpenAI atribuye a GPT-5.5 un 58,6 % [
24].
DeepSeek documenta que V4-Pro y V4-Flash pueden usarse mediante la interfaz OpenAI ChatCompletions y la interfaz de Anthropic; los parámetros de modelo son deepseek-v4-pro y deepseek-v4-flash [25]. Eso confirma disponibilidad, pero no una victoria en benchmarks.
Para Claude Opus 4.7 y Kimi K2.6, la lectura debe ser más prudente: LushBinary aporta valores concretos de Claude frente a GPT-5.5, mientras que CodeRouter aporta datos de precio y posicionamiento para Kimi K2.6 y DeepSeek V4 [4][
6].
Tabla comparativa de valores citados
En la tabla, Sin dato comparable significa que las fuentes usadas no ofrecen una cifra suficientemente directa para esa combinación de modelo y benchmark.
| Benchmark / criterio | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | Sin dato comparable | Según CodeRouter, al nivel de GPT-5.5 [ | 64,3 % [ | 58,6 % [ |
| SWE-Bench Verified | Sin dato comparable | Sin dato comparable | 87,6 % [ | aprox. 85 % [ |
| Terminal-Bench 2.0 | Sin dato comparable | Sin dato comparable | aprox. 72 % [ | 82,7 % [ |
| GDPval / Knowledge Work | Sin dato comparable | Sin dato comparable | aprox. 78 % [ | 84,9 % [ |
| OSWorld-Verified / Computer Use | Sin dato comparable | Sin dato comparable | aprox. 65 % [ | 78,7 % [ |
| GPQA Diamond | Sin dato comparable | Sin dato comparable | 94,2 % [ | aprox. 93 % [ |
| CursorBench | Sin dato comparable | Sin dato comparable | 70 % [ | aprox. 65 % [ |
| Tau2-bench Telecom | Sin dato comparable | Sin dato comparable | aprox. 90 % [ | 98,0 % [ |
| Vision & Document Arena | Sin dato comparable | Sin dato comparable | Puesto 1 según informe de Arena citado por AINews [ | Sin dato comparable |
| Precio / contexto citado | V4 Flash: 0,14 USD de entrada / 0,28 USD de salida por millón de tokens; contexto de 1 millón [ | 0,60 USD de entrada / 4,00 USD de salida por millón de tokens [ | Sin dato comparable | Sin dato comparable |
Coding: Claude Opus 4.7 parece el más fuerte, Kimi K2.6 compite por coste
Si el criterio principal es programación, la fotografía disponible favorece a Claude Opus 4.7. LushBinary cita 64,3 % para Claude Opus 4.7 en SWE-Bench Pro frente al 58,6 % de GPT-5.5; OpenAI confirma por su parte ese 58,6 % de GPT-5.5 [4][
24]. La misma fuente sitúa a Claude Opus 4.7 por delante de GPT-5.5 en SWE-Bench Verified y CursorBench [
4].
Kimi K2.6 sigue siendo interesante para equipos que ejecutan muchos intentos, borradores o reintentos de agentes. CodeRouter lo coloca al nivel de GPT-5.5 en SWE-Bench Pro y, al mismo tiempo, cita precios más bajos: 0,60 USD por millón de tokens de entrada y 4,00 USD por millón de tokens de salida [6]. Eso no sustituye a una evaluación propia, pero sí lo convierte en un candidato razonable cuando el coste por tarea aceptada importa mucho.
Para DeepSeek V4, las fuentes oficiales usadas aquí no aportan una cifra de coding comparable. Lo que sí está documentado es la disponibilidad de V4-Pro y V4-Flash en la API de DeepSeek [25].
Terminal, agentes y computer use: GPT-5.5 está mejor respaldado
En flujos de terminal, GPT-5.5 es el punto de partida más sólido según datos públicos oficiales. OpenAI le asigna 82,7 % en Terminal-Bench 2.0 y describe ese benchmark como una prueba de workflows de línea de comandos con planificación, iteración y coordinación de herramientas [24]. LushBinary sitúa a Claude Opus 4.7 en torno al 72 % en ese mismo benchmark [
4].
La ventaja de GPT-5.5 también aparece en los datos secundarios de trabajo del conocimiento y uso de ordenador: 84,9 % en GDPval frente a aproximadamente 78 % para Claude Opus 4.7, y 78,7 % en OSWorld-Verified frente a alrededor de 65 % para Claude Opus 4.7 [4]. Para tareas con shell, orquestación de herramientas y acciones cercanas a una interfaz gráfica, GPT-5.5 es el candidato mejor sustentado por estas fuentes.
Visión y documentos: Claude Opus 4.7 tiene la señal positiva más clara
En visión y documentos no hay una tabla completa de los cuatro modelos. La señal más clara favorece a Claude Opus 4.7: un informe de Arena citado por Latent Space/AINews lo coloca en el puesto 1 de Vision & Document Arena [1].
LLM Stats también indica que Claude Opus 4.7 puede procesar imágenes de hasta 2.576 píxeles en el lado largo, aproximadamente 3,75 megapíxeles; para GPT-5.5, señala soporte de entrada de imagen y valores de MMMU-Pro de 81,2 % sin herramientas y 83,2 % con herramientas [5]. Estos datos ayudan a comparar Claude con GPT-5.5, pero no equivalen a una comparación directa de cuatro modelos con Kimi K2.6 y DeepSeek V4.
Precio-rendimiento: Kimi K2.6 y DeepSeek V4 Flash merecen prueba propia
El argumento de precio más claro corresponde a Kimi K2.6. CodeRouter lo describe como ganador de coste/calidad y cita 0,60 USD de entrada y 4,00 USD de salida por millón de tokens [6].
DeepSeek V4 Flash aparece en la misma fuente como una opción de trabajo muy barata, con 0,14 USD de entrada, 0,28 USD de salida por millón de tokens y contexto de 1 millón [6]. Además, la documentación oficial de DeepSeek confirma que V4-Pro y V4-Flash están disponibles mediante las interfaces actuales de API [
25].
Aun así, precio-rendimiento no es lo mismo que liderazgo en benchmarks. Un modelo barato puede ser ideal para muchos intentos y tareas de menor riesgo; en producción, lo que cuenta es cuántas tareas resuelve correctamente, con estabilidad y sin generar retrabajo caro.
Cómo probarlos de forma justa
Para decidir en un entorno real, un ranking público no basta. Lo razonable es construir un pequeño conjunto de pruebas con tareas propias: incidencias de tu repositorio, documentos reales, flujos de agente o acciones de terminal frecuentes. Mide no solo la primera respuesta, sino también coste por resultado aceptado, necesidad de reintentos, gravedad de los errores y tiempo de ejecución.
También conviene no mezclar niveles de evidencia. GPT-5.5 tiene aquí valores oficiales de OpenAI en Terminal-Bench 2.0 y SWE-Bench Pro [24]. DeepSeek V4 tiene confirmación oficial de disponibilidad en API [
25]. Las afirmaciones comparativas más fuertes sobre Claude Opus 4.7 y Kimi K2.6 proceden, en esta selección de fuentes, de terceros [
4][
6].
Conclusión
La comparación no deja un ganador universal. Claude Opus 4.7 lidera los datos citados más cercanos a coding; GPT-5.5 es el mejor respaldado en terminal, flujos agentivos y computer use; Kimi K2.6 tiene el relato de precio-rendimiento más convincente; y DeepSeek V4 queda como candidato disponible por API que debería medirse con pruebas propias antes de elegirlo para producción [4][
24][
6][
25].




