La pregunta parece sencilla: ¿cuál es mejor, Claude Opus 4.7, GPT-5.5, DeepSeek V4 o Kimi K2.6? La respuesta honesta es menos vistosa: con los datos públicos disponibles, no hay un primer puesto universal.
Vals AI lista DeepSeek V4 y GPT-5.5 con fecha 23 de abril de 2026, Kimi K2.6 el 20 de abril y Claude Opus 4.7 el 16 de abril [19]. Pero aparecer en la misma hornada de modelos no significa haber sido evaluados con el mismo banco de pruebas, la misma configuración, el mismo presupuesto de inferencia ni el mismo criterio de coste. Por eso, la comparación útil no es quién gana en abstracto, sino qué modelo muestra mejores señales para cada tipo de trabajo.
Antes de comparar: no todos los benchmarks miden lo mismo
En 2026, hablar de benchmarks de IA es hablar de una cesta de pruebas, no de un examen único. Kili Technology agrupa pruebas como MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval y evaluaciones de seguridad como métricas orientadas a capacidades distintas [8]. El AI Index de Stanford HAI también separa el rendimiento técnico en ejes como MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME y SWE-bench Verified [
13].
Eso importa porque una puntuación alta en conocimiento general no garantiza el mejor rendimiento programando, operando una interfaz gráfica o resolviendo flujos de atención al cliente. Además, MMLU ha perdido parte de su poder para distinguir a los modelos de frontera: Nanonets explica que se calcula con un formato 5-shot y que, en 2026, los modelos punteros se concentran por encima del 88 %, lo que reduce su utilidad para separar a los mejores [22].
La regla práctica es sencilla: antes de mirar un ranking, hay que decidir si el problema real es código, análisis documental, razonamiento científico, uso de ordenador, automatización con agentes, latencia o coste [8][
22].
Tabla rápida: qué dicen los datos públicos
| Modelo | Cifras públicas destacadas | Dónde parece más fuerte | Precaución al comparar |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100, 2.º de 110 en leaderboard provisional; SWE-bench Verified 82,4 %; FinanceBench 82,7 %; MathVista +9,5 puntos [ | Código, leaderboard general de BenchLM, análisis financiero y razonamiento visual-matemático | El benchmark interno de Anthropic para agentes de investigación usa otra escala y no se puede comparar directamente con GDPval de GPT-5.5 [ |
| GPT-5.5 | BenchLM 89/100, 5.º de 112 en provisional; GDPval 84,9 %; OSWorld-Verified 78,7 %; Tau2-bench Telecom 98,0 %; Vals Accuracy 67,76 % ± 1,79 [ | Trabajo de conocimiento, uso autónomo de ordenador, flujos de atención al cliente y tareas agente | OpenAI, BenchLM y Vals usan marcos de evaluación distintos [ |
| DeepSeek V4 / V4-Pro-Max | Vals AI lo lista el 23 de abril de 2026; V4-Pro-Max: MMLU-Pro 87,5 %, GPQA Diamond 90,1 %, GSM8K 92,6 % [ | Razonamiento científico, matemáticas y preguntas difíciles | DataCamp presenta esas cifras como resultados internos de DeepSeek, por lo que conviene separarlas de rankings independientes [ |
| Kimi K2.6 | BenchLM 85/100, 12.º de 115 en provisional; Vals Accuracy 63,94 % ± 1,97, latencia 373,57 s, coste/test US$0,21; Artificial Analysis Intelligence Index 54, puesto global n.º 4 [ | Pesos abiertos, coste, latencia y eficiencia operativa | Las fuentes alternan entre Kimi 2.6, Kimi K2.6 y K2.6 Thinking; hay que verificar que se compara la misma configuración [ |
BenchLM: Claude va por delante entre los modelos comparables
Si se toma BenchLM como referencia, Claude Opus 4.7 es el más alto de los tres modelos para los que aquí hay ficha comparable. BenchLM lo sitúa 2.º de 110 modelos en el leaderboard provisional, con una puntuación global de 97/100, y también 2.º de 14 en el leaderboard verificado [3].
GPT-5.5 aparece en BenchLM como 5.º de 112 modelos en el leaderboard provisional, con 89/100, y 2.º de 16 en el leaderboard verificado [28]. Kimi 2.6 figura con 85/100, 12.º de 115 en el leaderboard provisional y 27 puntuaciones de benchmarks publicadas [
37].
La lectura correcta es limitada: en BenchLM, Claude queda por delante de GPT-5.5 y Kimi 2.6 según esas fichas. Pero las muestras no son idénticas —110, 112 y 115 modelos— y el material disponible no aporta una puntuación equivalente de DeepSeek V4 en BenchLM para cerrar una tabla de cuatro [3][
28][
37].
Código: Claude tiene la cifra más clara en SWE-bench Verified
Para tareas de ingeniería de software, Claude Opus 4.7 ofrece la señal pública más directa. MindStudio indica que alcanzó 82,4 % en SWE-bench Verified, unos 11 puntos más que Opus 4.6 [2]. La misma fuente atribuye a Claude Opus 4.7 un 82,7 % en FinanceBench y una mejora de 9,5 puntos en MathVista, una prueba relacionada con razonamiento visual y matemático [
2].
En GPT-5.5, las cifras oficiales destacadas por OpenAI no se centran en SWE-bench, sino en GDPval, OSWorld-Verified y Tau2-bench Telecom [29]. Para Kimi K2.6, GMI Cloud afirma que lidera SWE-Bench Pro, pero el fragmento disponible no aporta una puntuación exacta ni permite una comparación bajo las mismas condiciones con los otros tres modelos [
35]. En el caso de DeepSeek V4, los datos más concretos de este conjunto de fuentes apuntan más a razonamiento, ciencia y matemáticas que a reparación autónoma de código [
15][
16].
Trabajo profesional y agentes: GPT-5.5 muestra métricas oficiales muy concretas
Si el caso de uso se parece más a producir documentos, operar herramientas o ejecutar procesos de soporte, GPT-5.5 tiene una ventaja documental: OpenAI publica cifras oficiales en pruebas diseñadas para ese terreno. Según OpenAI, GPT-5.5 logra 84,9 % en GDPval, una evaluación de trabajo de conocimiento especificado en 44 ocupaciones; 78,7 % en OSWorld-Verified, que mide la capacidad de operar entornos reales de ordenador; y 98,0 % en Tau2-bench Telecom, centrado en flujos complejos de atención al cliente [29].
Claude Opus 4.7 también cuenta con datos de tareas agente, pero proceden de otro marco. Anthropic afirma que, en su benchmark interno de agentes de investigación, Claude Opus 4.7 empató en la mejor puntuación global de seis módulos con 0,715 y alcanzó 0,813 en General Finance, frente a 0,767 de Opus 4.6 [7].
El matiz es importante: el 84,9 % de GDPval y el 0,715 del benchmark interno de Anthropic no son la misma unidad de medida. Sirven para entender fortalezas, no para hacer una resta directa entre GPT-5.5 y Claude Opus 4.7 [7][
29].
Razonamiento y conocimiento: DeepSeek V4-Pro-Max y Kimi K2.6 Thinking sí aparecen juntos en algunas tablas
DeepSeek V4 ofrece sus cifras más concretas en la configuración V4-Pro-Max. DataCamp señala que, según resultados internos de DeepSeek, V4-Pro-Max obtiene 87,5 % en MMLU-Pro, 90,1 % en GPQA Diamond y 92,6 % en GSM8K [15]. Son datos útiles, pero al venir presentados como resultados internos conviene no tratarlos exactamente igual que una medición independiente [
15].
La ficha de Hugging Face de DeepSeek-V4-Pro incluye una tabla donde DeepSeek V4-Pro-Max y Kimi K2.6 Thinking aparecen juntos en algunas pruebas de conocimiento y razonamiento [16]:
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Ventaja en esa tabla |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek V4-Pro-Max [ |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek V4-Pro-Max [ |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek V4-Pro-Max [ |
| GPQA Diamond | 90,1 | 90,5 | Kimi K2.6 Thinking [ |
| HLE | 37,7 | 36,4 | DeepSeek V4-Pro-Max [ |
En esa tabla concreta, DeepSeek V4-Pro-Max supera a Kimi K2.6 Thinking en MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA y HLE, mientras Kimi queda ligeramente por delante en GPQA Diamond [16]. Aun así, esa comparación no incluye a Claude Opus 4.7 ni a GPT-5.5, sino a otros modelos como Opus-4.6 Max y GPT-5.4 xHigh, de modo que no basta para ordenar a los cuatro protagonistas de esta comparativa [
16].
Coste y latencia: Kimi K2.6 llama la atención en operación
Vals AI permite contrastar algunos datos operativos de GPT-5.5 y Kimi K2.6. GPT-5.5 aparece con Accuracy 67,76 % ± 1,79, latencia de 409,09 s y ventana de contexto de 1 M [31]. Kimi K2.6 figura con Accuracy 63,94 % ± 1,97, latencia de 373,57 s y coste de US$0,21 por test [
39]. Si se miran solo esas dos fichas de Vals, GPT-5.5 tiene mayor exactitud indicada y Kimi K2.6 menor latencia indicada [
31][
39].
Kimi K2.6 también destaca para quienes priorizan modelos de pesos abiertos. Artificial Analysis describe Kimi K2.6, de Moonshot, como un modelo líder de open weights y le asigna un Artificial Analysis Intelligence Index de 54, con puesto global n.º 4 [36]. Pero, de nuevo, no conviene sumar sin más el 54 de Artificial Analysis, el 63,94 % de Vals y el 85/100 de BenchLM: son escalas distintas [
36][
37][
39].
Guía práctica para elegir
- Si tu prioridad es la reparación de código y la ingeniería de software autónoma, Claude Opus 4.7 es el primer candidato que conviene probar: sus señales más claras son SWE-bench Verified 82,4 % y BenchLM 97/100 [
2][
3].
- Si buscas producir trabajo de conocimiento, operar entornos de ordenador o automatizar atención al cliente, GPT-5.5 tiene los indicadores oficiales más directos: GDPval 84,9 %, OSWorld-Verified 78,7 % y Tau2-bench Telecom 98,0 % [
29].
- Si el foco está en preguntas científicas, matemáticas y razonamiento difícil, DeepSeek V4-Pro-Max y Kimi K2.6 Thinking merecen una comparación específica en MMLU-Pro, GPQA Diamond y HLE [
15][
16].
- Si importan los pesos abiertos, la latencia y el coste por prueba, Kimi K2.6 ofrece señales interesantes: Artificial Analysis lo destaca como open weights y Vals informa US$0,21 por test con 373,57 s de latencia [
36][
39].
- Si la decisión es para producción, no conviene depender de MMLU como métrica principal: los modelos líderes ya se agrupan en rangos muy altos y el benchmark distingue peor entre ellos [
22].
Veredicto
Con la evidencia pública disponible, Claude Opus 4.7 aparece especialmente fuerte en código y en BenchLM; GPT-5.5, en trabajo profesional, uso de ordenador y flujos agente; DeepSeek V4-Pro-Max, en razonamiento científico-matemático; y Kimi K2.6, en el cruce entre pesos abiertos, coste y métricas operativas [2][
3][
15][
16][
28][
29][
36][
37][
39].
Pero no hay una tabla pública única que permita proclamar un 1.º, 2.º, 3.º y 4.º definitivo. La comparación sirve como mapa inicial. Para una adopción real, lo más prudente es replicar pruebas con tus propios datos y tareas: código, análisis financiero, navegación o control de ordenador, soporte al cliente, agentes de larga duración y restricciones de coste [8][
22].




