| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingüe | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Puntuación Codeforces | — | 3206 | — |
| SciCode | 53.5 | — | — |
| NL2Repo | 47.2 | — | — |
| MCP-Mark | 60.8 | — | — |
Nota sobre el precio de DeepSeek: DeepSeek aplicó una promoción de lanzamiento del 75% de descuento hasta el 31 de mayo de 2026, dejando el modelo Pro en $0.435/$0.87 (entrada/salida). La tarifa estándar tras la promoción es de $1.74/$3.48
. La tabla de arriba muestra el precio estándar para entrada y salida.
Programación y agentes autónomos — Estos tres modelos están extremadamente igualados en SWE-Bench Verified (rango: 80.2–80.6). Qwen 3.7 Max lidera en Terminal-Bench 2.0 (69.7) y SWE-Pro (60.6), mientras que DeepSeek V4 Pro Max domina en LiveCodeBench (93.5) y en la puntuación de Codeforces (3206) —las mejores marcas de programación pura de cualquier modelo evaluado . Kimi K2.6 encabeza SWE-Bench Pro (58.6) y es el líder en evaluaciones que combinan herramientas externas (HLE con herramientas con un 54.0)
.
Razonamiento — Qwen 3.7 Max obtiene las puntuaciones más altas en competiciones de matemáticas (HMMT 97.1%, GPQA Diamond 92.4%) . DeepSeek se queda ligeramente por detrás en HMMT (95.2%) y HLE (37.7%)
. Kimi K2.6 lidera en HLE con herramientas (54.0) y DeepSearchQA (92.5 F1), lo que significa que destaca en escenarios de búsqueda aumentada y uso de múltiples herramientas, más que en matemáticas puras
.
Precio y relación calidad-precio — DeepSeek V4 Pro es, con diferencia, la opción más barata, a $0.87 por salida (precio final) y con la posibilidad de alojarlo uno mismo al ser de código abierto . Qwen 3.7 Max es el más caro, a $7.50 por salida, aunque Alibaba ofrece descuentos por procesamiento en lote y uso de caché
. Kimi K2.6 se sitúa en un punto intermedio, a $4.00 por salida, pero ofrece solo 256K de contexto, frente a 1M de los otros dos
.
Advertencia importante (evaluación del NIST CAISI): Una evaluación de mayo de 2026 realizada por el NIST CAISI (Instituto Nacional de Estándares y Tecnología de EE. UU.) reveló que los benchmarks publicados por DeepSeek V4 Pro sobrestiman su capacidad en comparación con evaluaciones independientes no públicas, lo que sugiere que su rendimiento real podría estar más cerca de GPT-5 (de agosto de 2025) que de Claude Opus 4.6 . Esta valoración no aplica a Qwen 3.7 Max ni a Kimi K2.6, cuyos resultados no fueron evaluados directamente por CAISI en ese mismo informe.
Comments
0 comments