Los gráficos de benchmarks hacen que esta comparación parezca una carrera con una sola meta. No lo es. La comparación común más cercana en las fuentes citadas cubre GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 aparece en fuentes separadas centradas en Kimi, su ficha de modelo y rankings [1][
6][
24]. Por eso, la pregunta útil no es tanto «¿cuál gana?» como «¿cuál debería probar primero para mi carga de trabajo?».
Una nota de nombres: aquí uso DeepSeek-V4-Pro-Max para hablar de DeepSeek V4, porque esa es la variante que aparece con filas de benchmark y coste en las fuentes citadas [18][
24]. También separo GPT-5.5 Pro de GPT-5.5 base siempre que la fuente informa resultados distintos [
24].
Veredicto rápido por tipo de trabajo
- Agentes de programación que viven en la terminal: GPT-5.5 tiene el mejor resultado citado en Terminal-Bench 2.0 dentro de la comparación compartida, con 82,7% [
24].
- Reparación de software: Claude Opus 4.7 lidera la fila citada de SWE-Bench Pro con 64,3% y la de SWE-Bench Verified con 87,6% [
18][
24].
- Razonamiento difícil sin herramientas: Claude Opus 4.7 encabeza las filas compartidas de GPQA Diamond y Humanity’s Last Exam sin herramientas [
24].
- Razonamiento con herramientas y navegación: GPT-5.5 Pro lidera Humanity’s Last Exam con herramientas con 57,2% y BrowseComp con 90,1%, allí donde se informa esa variante Pro [
24].
- Despliegue con pesos abiertos: Kimi K2.6 es el candidato más claro en las fuentes citadas: se describe como un modelo MoE de 1 billón de parámetros, con 32.000 millones activos y ventana de contexto de 256K [
1].
- Inferencia alojada sensible al precio: DeepSeek-V4-Pro-Max es el candidato de valor a validar: LLM Stats lo lista con contexto de 1 millón, 80,6% en SWE-Bench Verified y columnas de coste de $1.74/$3.48 [
18].
Tabla comparativa de benchmarks
Un guion significa que no encontré esa puntuación en las fuentes citadas para ese modelo; no significa que el modelo haya obtenido cero. Las filas de GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max proceden sobre todo de una comparación compartida; las cifras de Kimi K2.6 vienen de fuentes separadas sobre Kimi [1][
6][
24].
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | — | 94,2% [ | ≈91% [ | 90,1% [ |
| Humanity’s Last Exam, sin herramientas | 41,4% [ | 43,1% [ | 46,9% [ | — | 37,7% [ |
| Humanity’s Last Exam, con herramientas | 52,2% [ | 57,2% [ | 54,7% [ | 54,0% [ | 48,2% [ |
| Terminal-Bench 2.0 | 82,7% [ | — | 69,4% [ | 66,7% [ | 67,9% [ |
| SWE-Bench Pro | 58,6% [ | — | 64,3% [ | 58,6% [ | 55,4% [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,2% [ | 83,4% [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | — | 79,1% [ | — | 73,6% [ |
| SWE-Bench Verified | — | — | 87,6% [ | 80,2% [ | 80,6% [ |
Qué modelo probar primero
| Prioridad | Empieza por | Por qué |
|---|---|---|
| Agentes de código orientados a terminal | GPT-5.5 | Tiene la mejor puntuación citada en Terminal-Bench 2.0 dentro de la comparación compartida: 82,7% [ |
| Reparación de software | Claude Opus 4.7 | Lidera la fila citada de SWE-Bench Pro y la de SWE-Bench Verified entre estos modelos [ |
| Razonamiento difícil sin herramientas | Claude Opus 4.7 | Encabeza GPQA Diamond y Humanity’s Last Exam sin herramientas en la comparación compartida [ |
| Razonamiento con herramientas o navegación | GPT-5.5 Pro | Lidera Humanity’s Last Exam con herramientas y BrowseComp cuando GPT-5.5 Pro se informa por separado [ |
| Despliegue con pesos abiertos | Kimi K2.6 | Se describe como un MoE de pesos abiertos con 1 billón de parámetros, y su ficha en Hugging Face informa filas fuertes en benchmarks de programación [ |
| Inferencia alojada con presión de costes | DeepSeek-V4-Pro-Max | LLM Stats lo lista con contexto de 1 millón, 80,6% en SWE-Bench Verified y columnas de coste inferiores a las de Claude Opus 4.7 en el mismo ranking [ |
| Necesidades de contexto largo | GPT-5.5, Claude Opus 4.7 o DeepSeek-V4-Pro-Max | Las fuentes citadas listan contexto de 1 millón para GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 aparece alrededor de 256K a 262K [ |
Notas por modelo
GPT-5.5
OpenAI describe GPT-5.5 como un modelo construido para tareas complejas como programación, investigación y análisis de datos [38]. En la comparación compartida citada, GPT-5.5 alcanza 82,7% en Terminal-Bench 2.0, por delante de Claude Opus 4.7 con 69,4% y DeepSeek-V4-Pro-Max con 67,9% [
24]. En esa misma tabla también aparece con 93,6% en GPQA Diamond, 58,6% en SWE-Bench Pro y 84,4% en BrowseComp [
24].
La advertencia principal es que GPT-5.5 Pro funciona como punto de comparación separado. En la misma tabla, GPT-5.5 Pro llega a 90,1% en BrowseComp y 57,2% en Humanity’s Last Exam con herramientas, pero esos resultados no deberían mezclarse con los de GPT-5.5 base al comparar coste, latencia o configuración del modelo [24].
Para compras o planificación de presupuesto, BenchLM lista GPT-5.5 con una ventana de contexto de 1 millón de tokens, mientras que un informe de precios lo sitúa en $5 por millón de tokens de entrada y $30 por millón de tokens de salida [27][
36]. Conviene tratar esa cifra como una señal a verificar, no como una cotización final.
Claude Opus 4.7
Claude Opus 4.7 tiene las señales más fuertes de reparación de software dentro de este grupo. LLM Stats lo lista con 87,6% en SWE-Bench Verified, y la comparación compartida informa 64,3% en SWE-Bench Pro [18][
24]. También lidera la fila compartida de GPQA Diamond con 94,2%, Humanity’s Last Exam sin herramientas con 46,9% y MCP Atlas con 79,1% [
24].
LLM Stats informa una ventana de contexto de 1 millón de tokens y precios de $5/$25 por millón de tokens para Claude Opus 4.7 [16]. La cautela sobre comparabilidad es importante: Anthropic señala que algunos resultados usaron implementaciones internas o parámetros de harness actualizados, y que ciertas puntuaciones no son directamente comparables con rankings públicos [
17].
Kimi K2.6
Kimi K2.6 es el candidato de pesos abiertos más claro en el material citado. La cobertura de lanzamiento lo describe como un MoE de pesos abiertos con 1 billón de parámetros, 32.000 millones activos, 384 expertos, multimodalidad nativa, cuantización INT4 y contexto de 256K [1]. Su ficha en Hugging Face informa 80,2% en SWE-Bench Verified, 58,6% en SWE-Bench Pro, 66,7% en Terminal-Bench 2.0 y 89,6 en LiveCodeBench v6 [
6].
La misma cobertura de lanzamiento informa 54,0 en Humanity’s Last Exam con herramientas y 83,2 en BrowseComp para Kimi K2.6 [1]. LLM Stats lo lista con contexto de 262K, columnas de precio de $0.95/$4.00 y etiqueta Open Source [
11]. La limitación es que sus cifras no proceden de la misma tabla compartida que GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; por tanto, las diferencias pequeñas deberían servir para decidir qué probar, no para declarar un ganador definitivo [
1][
6][
24].
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max parece más un candidato de valor que un líder absoluto de benchmarks. LLM Stats lo lista con tamaño de 1,6T, contexto de 1 millón, 80,6% en SWE-Bench Verified y columnas de coste de $1.74/$3.48 [18]. En la comparación compartida, obtiene 90,1% en GPQA Diamond, 37,7% en Humanity’s Last Exam sin herramientas, 48,2% en Humanity’s Last Exam con herramientas, 67,9% en Terminal-Bench 2.0, 55,4% en SWE-Bench Pro, 83,4% en BrowseComp y 73,6% en MCP Atlas [
24].
Esas cifras lo hacen interesante para cargas de trabajo sensibles al precio. Aun así, la misma tabla muestra a GPT-5.5, GPT-5.5 Pro o Claude Opus 4.7 liderando la mayoría de las filas reportadas, así que DeepSeek debería validarse con tareas propias antes de sustituir un modelo premium en producción [24].
Contexto y señales de precio
Las ventanas de contexto y los precios no siempre proceden de la misma fuente ni del proveedor directo. Úsalos como señales para compras, no como presupuestos cerrados.
| Modelo | Señal citada de contexto y precio | Lectura práctica |
|---|---|---|
| GPT-5.5 | BenchLM lista contexto de 1 millón; un informe de precios lista $5 de entrada y $30 de salida por millón de tokens [ | Opción premium alojada; verificar precio vigente. |
| Claude Opus 4.7 | LLM Stats informa contexto de 1 millón y precio de $5/$25 por millón de tokens [ | Opción premium para programación, razonamiento y contexto largo. |
| Kimi K2.6 | La cobertura de lanzamiento informa contexto de 256K; LLM Stats lista 262K y $0.95/$4.00 en sus columnas de precio [ | Candidato fuerte de pesos abiertos; el precio alojado puede variar según proveedor. |
| DeepSeek-V4-Pro-Max | LLM Stats lista contexto de 1 millón, tamaño de 1,6T, 80,6% en SWE-Bench Verified y $1.74/$3.48 en columnas de coste [ | Buen candidato de valor si mantiene calidad en tu carga real. |
Por qué los rankings no siempre coinciden
Cada fila mide una habilidad distinta. GPQA Diamond y Humanity’s Last Exam apuntan a razonamiento difícil; Terminal-Bench 2.0 y las variantes de SWE-Bench se centran en programación y trabajo de software con agentes; BrowseComp mide rendimiento de recuperación y navegación en la comparación compartida [24]. Un modelo puede liderar una fila y quedar detrás en otra porque cambian la tarea, el acceso a herramientas y el entorno de evaluación.
Incluso un mismo benchmark puede variar según la implementación. LLM Stats lista Claude Opus 4.7 con 87,6% en SWE-Bench Verified, mientras que LMCouncil lo lista con 83,5% ± 1,7 bajo su propia configuración [18][
30]. Anthropic también afirma que algunos resultados usaron implementaciones internas o parámetros de harness actualizados, lo que limita la comparación directa con rankings públicos [
17].
Por eso, una diferencia de uno o dos puntos no debería decidir por sí sola un despliegue en producción. Los benchmarks públicos sirven para acotar la lista; la evaluación propia debería tomar la decisión final.
Cómo evaluar a los finalistas
Antes de comprometerte con un modelo, prueba los dos o tres candidatos principales con tareas parecidas a tu carga real.
- Usa prompts, archivos y repositorios reales. Los prompts de benchmark rara vez capturan tu base de código, tus documentos, tus políticas internas o el comportamiento de tus usuarios.
- Replica el entorno de herramientas. Los resultados de agentes de programación cambian cuando el modelo tiene terminal, navegación, recuperación documental, contexto del repositorio o APIs internas.
- Mide coste y latencia con la misma configuración. Los modos Pro y los ajustes de mayor esfuerzo pueden mejorar la calidad, pero también cambian consumo de tokens y tiempo de respuesta.
- Revisa los fallos a mano. En programación, mira tests, diffs, mantenibilidad, regresiones de seguridad y dependencias inventadas.
- Incluye al menos un rival más barato. Kimi K2.6 y DeepSeek-V4-Pro-Max merecen estar en la prueba si importan los pesos abiertos o el coste de inferencia [
1][
18].
Conclusión
Si quieres una lista corta de gama alta, prueba GPT-5.5 y Claude Opus 4.7 en paralelo: GPT-5.5 tiene el mejor resultado citado en Terminal-Bench 2.0, mientras que Claude Opus 4.7 tiene los mejores resultados citados en SWE-Bench Pro y SWE-Bench Verified [18][
24]. Si necesitas pesos abiertos, empieza por Kimi K2.6 [
1][
6]. Si la restricción principal es el coste, incluye DeepSeek-V4-Pro-Max, pero valídalo con tu propia carga antes de tratarlo como sustituto directo de las opciones premium [
18][
24].




