Los benchmarks disponibles no apuntan a un campeón universal, sino a cuatro perfiles claros: Claude Opus 4.7 cuando la calidad pesa más que el coste, GPT-5.5 cuando importan Terminal-Bench y continuidad con ChatGPT/Codex, Kimi K2.6 cuando buscas coding competitivo barato, y DeepSeek V4 cuando necesitas muchas llamadas con contexto largo [3][
4][
7][
16]. La cautela es importante: las cifras mezclan variantes y configuraciones con herramientas, sin herramientas o modos de esfuerzo distintos [
3][
6][
14][
16].
Veredicto rápido
| Prioridad | Primera opción a probar | Señal clave |
|---|---|---|
| Máxima calidad en tareas difíciles | Claude Opus 4.7 | Lidera las cifras comparables de HLE frente a GPT-5.5 y DeepSeek, y CodeRouter lo sitúa primero en SWE-Bench Pro con 64,3% [ |
| Terminal, agentes y entorno OpenAI | GPT-5.5 | VentureBeat reporta 82,7% en Terminal-Bench 2.0, por encima de Claude Opus 4.7 y DeepSeek V4; una guía práctica lo asocia con flujos ChatGPT/Codex [ |
| Coding competitivo con coste bajo | Kimi K2.6 | CodeRouter lo lista con 58,6% en SWE-Bench Pro, empatado con GPT-5.5, y $0.60/$4.00 por 1M tokens de entrada/salida [ |
| Alto volumen y contexto largo barato | DeepSeek V4-Pro o V4 Flash | V4-Pro aparece con $1.74/$3.48 por 1M tokens y 1M de contexto; V4 Flash se cita a $0.14/$0.28 con 1M de contexto, aunque es otra variante [ |
| Ruta documentada de self-hosting | Kimi K2.6 | Verdent indica que los pesos de K2.6 están en Hugging Face y pueden ejecutarse con vLLM, SGLang o KTransformers [ |
Qué dicen los benchmarks
Humanity’s Last Exam, o HLE, es un benchmark académico multimodal de 2.500 preguntas de matemáticas, humanidades y ciencias naturales, diseñado para evaluar capacidades de frontera con respuestas verificables [15]. SWE-Bench Pro evalúa ingeniería de software multilenguaje sobre issues reales de GitHub, según la descripción recogida por DocsBot [
18]. Terminal-Bench 2.0 aparece en VentureBeat dentro de los resultados agentic y de software engineering [
3].
| Benchmark | Lectura principal | Cifras disponibles |
|---|---|---|
| HLE sin herramientas | Claude Opus 4.7 lidera entre los tres modelos presentes en la tabla de VentureBeat. | Claude Opus 4.7: 46,9%; GPT-5.5: 41,4%; DeepSeek V4: 37,7%. Kimi K2.6 no aparece en ese mismo extracto comparable [ |
| HLE con herramientas | Claude sigue arriba frente a GPT-5.5 y DeepSeek; Kimi tiene una cifra competitiva, pero en otra fuente. | Claude Opus 4.7: 54,7%; GPT-5.5: 52,2%; DeepSeek V4: 48,2% en VentureBeat. CodeRouter lista Kimi K2.6 con 54,0 en HLE con herramientas, pero no es la misma tabla [ |
| SWE-Bench Pro | Claude es el líder; GPT-5.5 y Kimi forman el segundo grupo; DeepSeek queda cerca pero por debajo. | CodeRouter reporta Claude Opus 4.7 en 64,3%, GPT-5.5 y Kimi K2.6 en 58,6%, y DeepSeek V4-Pro alrededor de 55%; VentureBeat cita 55,4% para DeepSeek [ |
| Terminal-Bench 2.0 | Es el argumento más fuerte para GPT-5.5 en las cifras comparables. | GPT-5.5: 82,7%; Claude Opus 4.7: 69,4%; DeepSeek V4: 67,9%. No hay una cifra de Kimi K2.6 en el extracto disponible [ |
La conclusión práctica es que Claude Opus 4.7 tiene la mejor señal de calidad general en los datos comparables, GPT-5.5 tiene una ventaja clara en Terminal-Bench 2.0, Kimi K2.6 destaca por relación rendimiento/precio en coding, y DeepSeek V4 es más interesante cuando el coste y el contexto mandan [3][
4][
16].
Precio y contexto: el benchmark no paga la factura
En agentes que hacen muchas llamadas, el precio por token puede pesar más que una pequeña diferencia de benchmark. Las fuentes disponibles colocan a Kimi K2.6 y DeepSeek V4 en la zona de coste agresivo, mientras GPT-5.5 y Claude Opus 4.7 quedan en la gama premium [4][
16][
19].
| Modelo o variante | Precio reportado | Contexto reportado | Nota |
|---|---|---|---|
| Claude Opus 4.7 | $5 entrada / $25 salida por 1M tokens en Artificial Analysis [ | 1M tokens y 128K tokens máximos de salida [ | Artificial Analysis también lo describe como uno de los modelos líderes en inteligencia, pero caro, lento y verboso [ |
| GPT-5.5 | $5 entrada / $30 salida por 1M tokens en CodeRouter [ | 1M tokens [ | Encaja mejor si ya trabajas sobre ChatGPT/Codex o necesitas el dato fuerte de Terminal-Bench [ |
| Kimi K2.6 | $0.60 entrada / $4.00 salida por 1M tokens en CodeRouter [ | 256K tokens [ | Artificial Analysis también muestra 256K de contexto para Kimi frente a 1000K para Claude Opus 4.7 en su comparación directa [ |
| DeepSeek V4-Pro | $1.74 entrada / $3.48 salida por 1M tokens en CodeRouter [ | 1M tokens [ | Opción atractiva para volumen barato con contexto largo, aunque no lidera HLE ni SWE-Bench Pro en las cifras disponibles [ |
| DeepSeek V4 Flash | $0.14 entrada / $0.28 salida por 1M tokens en CodeRouter [ | 1M tokens [ | Es una variante distinta: no conviene trasladar automáticamente los benchmarks de V4-Pro o V4-Pro-Max a Flash [ |
Hay una discrepancia relevante para Claude: la ficha específica de Artificial Analysis reporta $5/$25 y 1M de contexto, mientras la tabla de CodeRouter usada para Kimi lista otros valores para Claude [16][
19]. Para presupuestar producción, usa siempre el precio y el contrato actuales de tu proveedor.
Cuál elegir según tu caso
Elige Claude Opus 4.7 si el error cuesta caro
Claude Opus 4.7 es la primera prueba razonable para revisión de código compleja, análisis largo y tareas donde detectar defectos ocultos vale más que ahorrar tokens. La razón es su ventaja en HLE frente a GPT-5.5 y DeepSeek, su liderazgo en SWE-Bench Pro según CodeRouter, y la evaluación de Artificial Analysis, que lo coloca entre los modelos líderes de inteligencia aunque con coste, latencia y verbosidad elevados [3][
14][
16]. También tiene 1M de contexto y disponibilidad vía Anthropic API, Amazon Bedrock, Microsoft Azure y Google Vertex, según Artificial Analysis [
19].
Elige GPT-5.5 si tu flujo vive en OpenAI o depende del terminal
GPT-5.5 no supera a Claude Opus 4.7 en HLE dentro de los datos de VentureBeat, pero sí tiene el mejor resultado reportado de Terminal-Bench 2.0: 82,7% frente a 69,4% de Claude Opus 4.7 y 67,9% de DeepSeek V4 [3]. Si tu equipo ya trabaja en ChatGPT o Codex, una guía práctica lo presenta como la ruta natural antes de migrar por completo a otro proveedor [
7].
Elige Kimi K2.6 si quieres coding competitivo a menor coste
Kimi K2.6 es el caso más claro de coste/rendimiento en las fuentes disponibles: CodeRouter lo empata con GPT-5.5 en SWE-Bench Pro con 58,6% y lo lista a $0.60/$4.00 por 1M tokens [16]. Su ventana de 256K es menor que el 1M reportado para GPT-5.5 y DeepSeek V4-Pro en la misma tabla, pero puede ser suficiente si tu flujo de código cabe en esa ventana [
16]. Si necesitas operar tus propios pesos, Verdent reporta que K2.6 está en Hugging Face y corre con vLLM, SGLang o KTransformers, con 4× H100 como hardware mínimo viable para la variante INT4 a contexto reducido [
5].
Elige DeepSeek V4 si necesitas volumen barato y contexto largo
DeepSeek V4 Pro/Pro-Max queda por detrás de Claude Opus 4.7 y GPT-5.5 en HLE, Terminal-Bench 2.0 y SWE-Bench Pro dentro de las cifras de VentureBeat, pero su combinación de precio y 1M de contexto lo hace competitivo para pipelines de alto volumen [3][
16]. Si el objetivo es coste mínimo, V4 Flash aparece aún más barato en CodeRouter, aunque debe tratarse como una variante separada de V4-Pro [
4][
16].
Limitaciones antes de migrar
- No todas las cifras comparan la misma configuración. HLE aparece con y sin herramientas, y otras fuentes usan modos como high effort, max effort o thinking [
3][
6][
14][
16].
- Las variantes importan. GPT-5.5 no es GPT-5.5 Pro; DeepSeek V4-Pro, V4-Pro-Max y V4 Flash tampoco deberían mezclarse como si fueran el mismo modelo [
3][
4][
16].
- Los precios y leaderboards caducan rápido. Verdent advierte que estos números pueden quedarse obsoletos con rapidez en un entorno de lanzamientos continuos [
5].
- Tu flujo real manda. Una guía práctica recomienda ejecutar la misma tarea antes de cambiar de ruta, no elegir solo por el lanzamiento más ruidoso [
7].
Conclusión
Si solo importa la calidad, empieza por Claude Opus 4.7. Si tu prioridad son tareas de terminal, agentes o continuidad con OpenAI, prueba GPT-5.5. Si necesitas coding competitivo con coste bajo, Kimi K2.6 merece la primera evaluación. Si el cuello de botella es volumen barato con contexto largo, DeepSeek V4-Pro o V4 Flash es la ruta a validar, aceptando que no lidera los benchmarks más duros en las fuentes disponibles [3][
4][
7][
16][
19].




