Un guion significa que no encontré esa puntuación en las fuentes citadas para ese modelo; no significa que el modelo haya obtenido cero. Las filas de GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max proceden sobre todo de una comparación compartida; las cifras de Kimi K2.6 vienen de fuentes separadas sobre Kimi .
OpenAI describe GPT-5.5 como un modelo construido para tareas complejas como programación, investigación y análisis de datos . En la comparación compartida citada, GPT-5.5 alcanza 82,7% en Terminal-Bench 2.0, por delante de Claude Opus 4.7 con 69,4% y DeepSeek-V4-Pro-Max con 67,9%
. En esa misma tabla también aparece con 93,6% en GPQA Diamond, 58,6% en SWE-Bench Pro y 84,4% en BrowseComp
.
La advertencia principal es que GPT-5.5 Pro funciona como punto de comparación separado. En la misma tabla, GPT-5.5 Pro llega a 90,1% en BrowseComp y 57,2% en Humanity’s Last Exam con herramientas, pero esos resultados no deberían mezclarse con los de GPT-5.5 base al comparar coste, latencia o configuración del modelo .
Para compras o planificación de presupuesto, BenchLM lista GPT-5.5 con una ventana de contexto de 1 millón de tokens, mientras que un informe de precios lo sitúa en $5 por millón de tokens de entrada y $30 por millón de tokens de salida . Conviene tratar esa cifra como una señal a verificar, no como una cotización final.
Claude Opus 4.7 tiene las señales más fuertes de reparación de software dentro de este grupo. LLM Stats lo lista con 87,6% en SWE-Bench Verified, y la comparación compartida informa 64,3% en SWE-Bench Pro . También lidera la fila compartida de GPQA Diamond con 94,2%, Humanity’s Last Exam sin herramientas con 46,9% y MCP Atlas con 79,1%
.
LLM Stats informa una ventana de contexto de 1 millón de tokens y precios de $5/$25 por millón de tokens para Claude Opus 4.7 . La cautela sobre comparabilidad es importante: Anthropic señala que algunos resultados usaron implementaciones internas o parámetros de harness actualizados, y que ciertas puntuaciones no son directamente comparables con rankings públicos
.
Kimi K2.6 es el candidato de pesos abiertos más claro en el material citado. La cobertura de lanzamiento lo describe como un MoE de pesos abiertos con 1 billón de parámetros, 32.000 millones activos, 384 expertos, multimodalidad nativa, cuantización INT4 y contexto de 256K . Su ficha en Hugging Face informa 80,2% en SWE-Bench Verified, 58,6% en SWE-Bench Pro, 66,7% en Terminal-Bench 2.0 y 89,6 en LiveCodeBench v6
.
La misma cobertura de lanzamiento informa 54,0 en Humanity’s Last Exam con herramientas y 83,2 en BrowseComp para Kimi K2.6 . LLM Stats lo lista con contexto de 262K, columnas de precio de $0.95/$4.00 y etiqueta Open Source
. La limitación es que sus cifras no proceden de la misma tabla compartida que GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; por tanto, las diferencias pequeñas deberían servir para decidir qué probar, no para declarar un ganador definitivo
.
DeepSeek-V4-Pro-Max parece más un candidato de valor que un líder absoluto de benchmarks. LLM Stats lo lista con tamaño de 1,6T, contexto de 1 millón, 80,6% en SWE-Bench Verified y columnas de coste de $1.74/$3.48 . En la comparación compartida, obtiene 90,1% en GPQA Diamond, 37,7% en Humanity’s Last Exam sin herramientas, 48,2% en Humanity’s Last Exam con herramientas, 67,9% en Terminal-Bench 2.0, 55,4% en SWE-Bench Pro, 83,4% en BrowseComp y 73,6% en MCP Atlas
.
Esas cifras lo hacen interesante para cargas de trabajo sensibles al precio. Aun así, la misma tabla muestra a GPT-5.5, GPT-5.5 Pro o Claude Opus 4.7 liderando la mayoría de las filas reportadas, así que DeepSeek debería validarse con tareas propias antes de sustituir un modelo premium en producción .
Las ventanas de contexto y los precios no siempre proceden de la misma fuente ni del proveedor directo. Úsalos como señales para compras, no como presupuestos cerrados.
Cada fila mide una habilidad distinta. GPQA Diamond y Humanity’s Last Exam apuntan a razonamiento difícil; Terminal-Bench 2.0 y las variantes de SWE-Bench se centran en programación y trabajo de software con agentes; BrowseComp mide rendimiento de recuperación y navegación en la comparación compartida . Un modelo puede liderar una fila y quedar detrás en otra porque cambian la tarea, el acceso a herramientas y el entorno de evaluación.
Incluso un mismo benchmark puede variar según la implementación. LLM Stats lista Claude Opus 4.7 con 87,6% en SWE-Bench Verified, mientras que LMCouncil lo lista con 83,5% ± 1,7 bajo su propia configuración . Anthropic también afirma que algunos resultados usaron implementaciones internas o parámetros de harness actualizados, lo que limita la comparación directa con rankings públicos
.
Por eso, una diferencia de uno o dos puntos no debería decidir por sí sola un despliegue en producción. Los benchmarks públicos sirven para acotar la lista; la evaluación propia debería tomar la decisión final.
Antes de comprometerte con un modelo, prueba los dos o tres candidatos principales con tareas parecidas a tu carga real.
Si quieres una lista corta de gama alta, prueba GPT-5.5 y Claude Opus 4.7 en paralelo: GPT-5.5 tiene el mejor resultado citado en Terminal-Bench 2.0, mientras que Claude Opus 4.7 tiene los mejores resultados citados en SWE-Bench Pro y SWE-Bench Verified . Si necesitas pesos abiertos, empieza por Kimi K2.6
. Si la restricción principal es el coste, incluye DeepSeek-V4-Pro-Max, pero valídalo con tu propia carga antes de tratarlo como sustituto directo de las opciones premium
.
Comments
0 comments