La pregunta parece sencilla —¿qué modelo gana entre GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4?—, pero la respuesta responsable es menos vistosa: depende de qué benchmark mires y de si los datos se midieron con el mismo criterio.
En esta comparación separo dos cosas que a menudo se mezclan: los resultados numéricos y el nivel de evidencia. La comparación más limpia es la de GPT-5.5 frente a Claude Opus 4.7, porque OpenAI publica una misma tabla donde aparecen ambos modelos en SWE-Bench Pro y Terminal-Bench 2.0.[21] Para Kimi K2.6, los datos disponibles proceden de su página en Hugging Face y de un artículo de terceros con cifras de SWE-Bench; para DeepSeek V4, las fuentes disponibles aquí no aportan benchmarks verificables suficientes.[
32][
34]
Tabla comparativa de benchmarks
En la tabla, “—” significa que las fuentes usadas para este artículo no ofrecen una cifra citable. No significa que el modelo no pueda realizar esa tarea. Tampoco conviene sumar resultados de pruebas distintas como si fueran una clasificación general.
| Modelo | SWE-Bench Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Otros datos visibles | Nivel de evidencia y lectura |
|---|---|---|---|---|---|
| GPT-5.5 | 58,6% [ | — | 82,7% [ | Expert-SWE, evaluación interna: 73,1%; OpenAI señala que otros laboratorios han observado indicios de memorización en esa evaluación.[ | A−: SWE-Bench Pro y Terminal-Bench 2.0 aparecen en la misma tabla de OpenAI que Claude Opus 4.7, por lo que son comparables entre ambos. Expert-SWE es interno y debe leerse con cautela.[ |
| Claude Opus 4.7 | 64,3% [ | 87,6% [ | 69,4% [ | CursorBench: 70%.[ | A−/B: SWE-Bench Pro y Terminal-Bench 2.0 son comparables con GPT-5.5 en la tabla de OpenAI. SWE-Bench Verified y CursorBench aparecen sobre todo en recopilaciones de terceros; Verdent etiqueta el primero como evaluación realizada por Anthropic y el segundo como partner eval.[ |
| Kimi K2.6 | 58,6% [ | 80,2% [ | — | Hugging Face describe Kimi K2.6 como un modelo open-source, multimodal nativo y agéntico.[ | B, limitado: las cifras de SWE-Bench vienen de un artículo de terceros. En estas fuentes no aparece una tabla oficial completa que lo cruce con GPT-5.5 y Claude Opus 4.7 bajo el mismo marco.[ |
| DeepSeek V4 | — | — | — | — | C, datos insuficientes: con las fuentes disponibles para este artículo no hay resultados verificables suficientes para incluirlo en un ranking numérico. |
Lo importante no es “quién gana”, sino dónde gana
SWE-Bench Pro: ventaja para Claude Opus 4.7 frente a GPT-5.5
En la tabla de evaluación de OpenAI, Claude Opus 4.7 obtiene 64,3% en SWE-Bench Pro, por encima del 58,6% de GPT-5.5.[21] Es uno de los cruces más sólidos de esta comparación porque ambos modelos aparecen en la misma fuente y en el mismo benchmark.
Kimi K2.6 también aparece con 58,6% en SWE-Bench Pro en un artículo de Kilo AI.[34] La cifra lo coloca, al menos como señal preliminar, cerca de GPT-5.5. Pero no aparece en la misma tabla cruzada que GPT-5.5 y Claude Opus 4.7, así que no conviene tratarlo como un empate formal bajo idénticas condiciones.[
21][
34]
Terminal-Bench 2.0: GPT-5.5 supera a Claude Opus 4.7
La misma tabla de OpenAI da a GPT-5.5 un 82,7% en Terminal-Bench 2.0, frente al 69,4% de Claude Opus 4.7.[21] Si tu caso de uso se parece más a un agente que trabaja en terminal, ejecuta comandos o se mueve por flujos de desarrollo basados en línea de comandos, GPT-5.5 merece estar muy arriba en la lista de pruebas internas.
Aquí, sin embargo, falta una pieza importante: no hay cifras citables de Kimi K2.6 ni de DeepSeek V4 en Terminal-Bench 2.0 dentro de las fuentes disponibles. Por tanto, esta columna no permite ordenar a los cuatro modelos.
SWE-Bench Verified: Claude aparece por encima de Kimi, pero las fuentes no son equivalentes
Claude Opus 4.7 figura con 87,6% en SWE-Bench Verified en recopilaciones de benchmarks de terceros; Verdent indica que esa cifra corresponde a una evaluación realizada por Anthropic y que se aplicaron filtros de memorización.[4][
6] Kimi K2.6 aparece con 80,2% en SWE-Bench Verified en el artículo de Kilo AI.[
34]
Ambas cifras son útiles como orientación, pero no tienen el mismo peso que los datos de GPT-5.5 y Claude Opus 4.7 colocados en una misma tabla de OpenAI para SWE-Bench Pro y Terminal-Bench 2.0.[21]
Expert-SWE: una señal interesante, no una base para coronar a nadie
GPT-5.5 obtiene 73,1% en Expert-SWE, pero OpenAI lo presenta como una evaluación interna y añade que otros laboratorios han observado indicios de memorización en esa prueba.[21] Por eso, Expert-SWE puede servir como señal complementaria sobre GPT-5.5, pero no debería ser el pilar de un ranking general entre modelos.
Cómo elegir según el producto o el flujo de trabajo
Si tu prioridad es resolver issues complejos de software, Claude Opus 4.7 debería probarse pronto. En el dato más comparable de SWE-Bench Pro, Claude Opus 4.7 marca 64,3% frente al 58,6% de GPT-5.5.[21] Vellum interpreta esta comparación en el contexto de resolución de issues reales de GitHub.[
24]
Si tu flujo se parece más a un coding agent que opera en terminal, GPT-5.5 parte con ventaja. Su 82,7% en Terminal-Bench 2.0 supera el 69,4% de Claude Opus 4.7 en la tabla de OpenAI.[21] Eso no significa que GPT-5.5 sea superior en toda tarea de programación, pero sí que destaca claramente en ese benchmark concreto.
Si necesitas una opción abierta, Kimi K2.6 merece entrar en la shortlist. Hugging Face lo describe como un modelo open-source, multimodal nativo y agéntico, y Kilo AI le atribuye 58,6% en SWE-Bench Pro y 80,2% en SWE-Bench Verified.[32][
34] La cautela está en la evidencia: esas cifras no aparecen, en las fuentes de este artículo, dentro de una tabla oficial comparable con GPT-5.5 y Claude Opus 4.7.[
21][
34]
Si estás evaluando DeepSeek V4, lo prudente es esperar benchmarks verificables o hacer tus propias pruebas. Con las fuentes disponibles aquí, meterlo en una tabla de posiciones numérica sería más engañoso que útil.
Por qué esta comparativa no declara un ganador absoluto
La forma más rápida de equivocarse con benchmarks de modelos de lenguaje es mezclar fuentes, condiciones de prueba y tipos de tarea. Para evitarlo, conviene leer los datos en tres niveles:
- Benchmarks compartidos en una misma tabla. Es el caso de GPT-5.5 y Claude Opus 4.7 en SWE-Bench Pro y Terminal-Bench 2.0 dentro de la publicación de OpenAI; son los datos más comparables de este análisis.[
21]
- Evaluaciones de proveedor o de socios recopiladas por terceros. Aquí entran, por ejemplo, SWE-Bench Verified y CursorBench para Claude Opus 4.7. Sirven como señal, pero hay que mirar quién midió y bajo qué condiciones.[
4][
6]
- Datos sin verificación cruzada suficiente o directamente ausentes. Kimi K2.6 tiene cifras competitivas en SWE-Bench procedentes de un artículo de terceros, mientras que DeepSeek V4 no cuenta aquí con benchmarks citables suficientes.[
32][
34]
La conclusión práctica es clara: Claude Opus 4.7 lidera frente a GPT-5.5 en SWE-Bench Pro; GPT-5.5 lidera frente a Claude Opus 4.7 en Terminal-Bench 2.0; Kimi K2.6 muestra números competitivos, pero con evidencia más limitada; y DeepSeek V4 queda como dato insuficiente en esta comparación.[21][
32][
34]
Para una decisión real de producto, esta tabla debería ser solo el punto de partida. El siguiente paso es probar los modelos con tus propios repositorios, lenguajes, herramientas, pruebas automatizadas, límites de latencia, costes y mecanismos de recuperación ante fallos. Ahí es donde una comparativa deja de ser una foto de benchmarks y empieza a parecerse al rendimiento que verás en producción.




