Reducir GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4 a un único ganador sería engañoso. Las tablas disponibles cruzan pruebas distintas, modos distintos y, en algunos casos, no incluyen a los cuatro modelos en la misma fila. Aun así, el patrón es bastante claro: GPT-5.5 sale mejor parado en ARC y tareas de agente en terminal; Claude Opus 4.7 en HLE y SWE-Bench Pro; Kimi K2.6 es un rival interesante para coding y flujos agentic con ruta open-weight; y DeepSeek V4 no suele tener el score máximo, pero cambia la conversación por precio.[1][
2][
3][
4][
6][
8][
9][
13]
Veredicto rápido
- GPT-5.5: primera opción si tu prueba se parece a ARC-AGI o a agentes que operan en terminal. DocsBot le da 85% en ARC-AGI-2 frente al 75,8% de Claude Opus 4.7, y VentureBeat recoge 82,7% en Terminal-Bench 2.0 frente al 69,4% de Claude y 67,9% de DeepSeek.[
1][
3]
- Claude Opus 4.7: destaca más en razonamiento exigente y revisión de software. En los datos citados por VentureBeat lidera Humanity’s Last Exam, o HLE, sin herramientas, y DataCamp le asigna 64,3% en SWE-Bench Pro, por encima de GPT-5.5 y DeepSeek V4 Pro.[
3][
9]
- Kimi K2.6: no aparece en todas las mismas tablas, pero es competitivo. Artificial Analysis le da 54 frente a 57 de GPT-5.5 medium y 52 de Claude Opus 4.7 Non-reasoning high; en el benchmark de coding de AkitaOnRails marca 87.[
13][
8]
- DeepSeek V4: en estos datos pesa más como opción de coste/rendimiento que como campeón de benchmark. Mashable cita US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT-5.5 y US$5/US$25 de Claude Opus 4.7.[
2]
Tabla comparativa de benchmarks
El guion — indica que el fragmento de fuente disponible no ofrece un resultado comparable para ese modelo.
| Benchmark / fuente | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Lectura rápida |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85% | 75,8% | — | — | Ventaja de 9,2 puntos porcentuales para GPT-5.5.[ |
| ARC-AGI-1, DocsBot | 95% | 93,5% | — | — | GPT-5.5 queda algo por encima de Claude.[ |
| Artificial Analysis leaderboard | 57, GPT-5.5 medium | 52, Claude Opus 4.7 Non-reasoning high | 54 | — | GPT-5.5 queda por delante de Kimi y de ese modo de Claude; DeepSeek V4 no aparece en el fragmento disponible.[ |
| Humanity’s Last Exam sin herramientas, VentureBeat | 41,4% | 46,9% | — | 37,7% | Claude lidera entre las filas base mostradas.[ |
| Humanity’s Last Exam con herramientas, VentureBeat | 52,2%; GPT-5.5 Pro: 57,2% | 54,7% | — | 48,2% | Claude supera a la fila base de GPT-5.5, pero la fila GPT-5.5 Pro supera a Claude.[ |
| Terminal-Bench 2.0, VentureBeat | 82,7% | 69,4% | — | 67,9% | Es el salto más claro a favor de GPT-5.5 en esta selección.[ |
| SWE-Bench Pro, DataCamp | 58,6% | 64,3% | — | 55,4%, DeepSeek V4 Pro | Claude supera a GPT-5.5 y a DeepSeek V4 Pro.[ |
| SWE-Bench Verified, Verdent | — | 87,6% | 80,2% | — | Claude queda por encima de Kimi en este corte de coding.[ |
| Coding benchmark, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude y GPT-5.5 quedan prácticamente empatados; Kimi supera a las dos filas de DeepSeek V4.[ |
Por qué el ranking no cabe en una sola medalla
Los resultados no forman una liga cerrada donde todos juegan exactamente el mismo partido. Artificial Analysis compara GPT-5.5 medium, Kimi K2.6 y Claude Opus 4.7 Non-reasoning high; AkitaOnRails usa GPT-5.5 xHigh/Codex y separa DeepSeek V4 Flash de DeepSeek V4 Pro; VentureBeat distingue entre GPT-5.5 y GPT-5.5 Pro.[13][
8][
3]
Incluso el duelo más directo, GPT-5.5 contra Claude Opus 4.7, depende mucho de la familia de tareas. LLM Stats indica que, en 10 benchmarks reportados por ambos proveedores, Opus 4.7 lidera en 6 y GPT-5.5 en 4; las ventajas de Claude se concentran en pruebas de razonamiento y revisión, mientras que las de GPT-5.5 se agrupan en uso prolongado de herramientas y tareas guiadas por shell.[4]
Dónde brilla GPT-5.5
Los indicios más fuertes a favor de GPT-5.5 están en ARC y Terminal-Bench. En ARC-AGI-2 obtiene 85% frente al 75,8% de Claude Opus 4.7; en ARC-AGI-1 marca 95% frente a 93,5%.[1] Si tu caso de uso se parece a resolver patrones visuales, razonamiento abstracto o tareas de terminal ejecutadas por un agente, esos datos son los más relevantes de la comparación.
Terminal-Bench 2.0 refuerza esa lectura: VentureBeat recoge 82,7% para GPT-5.5, bastante por encima del 69,4% de Claude Opus 4.7 y del 67,9% de DeepSeek.[3] Artificial Analysis también coloca a GPT-5.5 medium por encima de Kimi K2.6, con 57 frente a 54, y del modo Claude Opus 4.7 Non-reasoning high, con 52.[
13] El matiz importa: no es un ranking universal de todos los modos posibles de cada modelo.
Dónde brilla Claude Opus 4.7
Claude Opus 4.7 se ve más fuerte donde pesan el razonamiento duro y la revisión de código complejo. En Humanity’s Last Exam sin herramientas, VentureBeat cita 46,9% para Claude, 41,4% para GPT-5.5 y 37,7% para DeepSeek; con herramientas, Claude marca 54,7%, GPT-5.5 llega a 52,2% y DeepSeek a 48,2%.[3]
En SWE-Bench Pro, DataCamp da 64,3% a Claude Opus 4.7, 58,6% a GPT-5.5 y 55,4% a DeepSeek V4 Pro.[9] Esa ventaja encaja con la lectura de LLM Stats: Claude lidera frente a GPT-5.5 en GPQA, HLE sin herramientas, HLE con herramientas, SWE-Bench Pro, MCP Atlas y FinanceAgent v1.1.[
4]
Cómo leer Kimi K2.6
Kimi K2.6 no encaja tan bien en un ranking único porque aparece en menos cruces directos con los otros tres. En Artificial Analysis obtiene 54, por debajo de GPT-5.5 medium con 57, pero por encima de Claude Opus 4.7 Non-reasoning high con 52.[13]
En el benchmark de coding de AkitaOnRails, Kimi K2.6 marca 87: queda por debajo de Claude Opus 4.7 con 97 y de GPT-5.5 xHigh/Codex con 96, pero por encima de DeepSeek V4 Flash con 78 y DeepSeek V4 Pro con 69.[8] En otra comparación de Verdent sobre SWE-Bench Verified, Kimi K2.6 aparece con 80,2% frente al 87,6% de Claude Opus 4.7.[
6]
Su diferencia práctica está en la vía open-weight. Verdent indica que los pesos de K2.6 están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers; también habla de una configuración mínima viable de 4× H100 para la variante INT4 con contexto reducido.[6] El README de Hugging Face recoge para Kimi K2.6 métricas agentic como HLE-Full con herramientas 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 y MCPMark 55,9, aunque esa tabla compara Kimi sobre todo con GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro, no con el conjunto completo de este artículo.[
25]
Cómo leer DeepSeek V4
En las fuentes citadas, DeepSeek V4 se parece más a una apuesta de valor que a un líder de raw score. En VentureBeat queda por debajo de GPT-5.5 y Claude Opus 4.7 en HLE sin herramientas, HLE con herramientas y Terminal-Bench 2.0.[3] En DataCamp, DeepSeek V4 Pro obtiene 55,4% en SWE-Bench Pro frente al 58,6% de GPT-5.5 y el 64,3% de Claude.[
9] En AkitaOnRails, DeepSeek V4 Flash marca 78 y DeepSeek V4 Pro 69, por debajo de Kimi K2.6, GPT-5.5 xHigh/Codex y Claude Opus 4.7 en esa misma tabla.[
8]
El precio, sin embargo, puede cambiar la decisión de producto. Mashable sitúa DeepSeek V4 en US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de tokens de salida; GPT-5.5 aparece en US$5/US$30 y Claude Opus 4.7 en US$5/US$25.[2] Eso no lo convierte en el ganador de los benchmarks, pero sí en un candidato lógico para borradores masivos, evaluaciones internas de bajo riesgo o pruebas donde el coste por intento pesa más que el mejor score posible.
Qué modelo probar primero
- ARC, razonamiento visual y puzzles abstractos: empieza por GPT-5.5, porque en el cruce de DocsBot supera a Claude Opus 4.7 en ARC-AGI-2 y ARC-AGI-1.[
1]
- Razonamiento difícil tipo HLE: empieza por Claude Opus 4.7 si comparas las filas base; recuerda que VentureBeat muestra una fila GPT-5.5 Pro por encima de Claude en HLE con herramientas.[
3]
- Agentes en terminal, shell y tool-use: empieza por GPT-5.5, ya que Terminal-Bench 2.0 es su resultado directo más fuerte en estas fuentes.[
3][
4]
- SWE-Bench Pro y revisión exigente de software: empieza por Claude Opus 4.7, porque DataCamp y LLM Stats señalan ventaja de Claude en SWE-Bench Pro.[
9][
4]
- Open-weight, self-hosting o soberanía de datos: prueba Kimi K2.6 si ejecutar pesos propios con Hugging Face, vLLM, SGLang o KTransformers es más importante que usar solo API cerradas.[
6]
- Experimentos de alto volumen con presupuesto ajustado: considera DeepSeek V4 si el coste por intento importa más que perseguir el máximo benchmark score.[
2][
3][
9]
Conclusión
Si la lectura es estrictamente de benchmarks, la parte alta se reparte entre GPT-5.5 y Claude Opus 4.7. GPT-5.5 sale mejor en ARC y Terminal-Bench; Claude Opus 4.7 en HLE y SWE-Bench Pro.[1][
3][
4][
9] Kimi K2.6 queda como un candidato fuerte para código y agentes, especialmente cuando importa la opción open-weight, aunque tiene menos comparaciones directas con todo el grupo.[
6][
8][
13] DeepSeek V4 suele quedar por debajo en raw score, pero su precio de API lo mantiene muy relevante para pilotos centrados en coste/rendimiento.[
2][
3][
9]




