Los rankings de modelos de IA en 2026 pueden parecer una carrera con un único ganador, pero esa lectura suele ser engañosa. Si se colocan Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6 en una misma tabla sin confirmar que el benchmark, la versión del modelo y la configuración de evaluación son equivalentes, se acaba comparando peras con manzanas.
Con las fuentes disponibles, la comparación más sólida es Claude Opus 4.7 frente a GPT-5.5, porque ambos aparecen en los mismos benchmarks reportados por OpenAI y Vellum [5][
2]. En cambio, para DeepSeek V4 y Kimi K2.6 no hay cifras directas en este conjunto de fuentes; los datos cercanos hablan de DeepSeek V3.2, KimiK2.5 y Kimi K2 Thinking [
1][
13][
6].
Lo esencial
- GPT-5.5 aparece más fuerte en terminal/CLI, tareas profesionales de oficina, navegador/búsqueda y algunas evaluaciones matemáticas en los datos disponibles [
5][
2].
- Claude Opus 4.7 aparece mejor posicionado en SWE-Bench Pro Public, MCP/tool orchestration y FinanceAgent v1.1 dentro de los benchmarks comparables [
5][
2].
- DeepSeek V4 y Kimi K2.6 no se pueden ordenar de forma justa frente a Claude Opus 4.7 o GPT-5.5 con estas fuentes, porque no hay números directos para esas versiones [
1][
13][
6].
Los benchmarks que sí comparan directamente a Claude Opus 4.7 y GPT-5.5
La tabla siguiente solo empareja a Claude Opus 4.7 y GPT-5.5 cuando aparecen en el mismo benchmark. GPT-5.5 Pro se menciona únicamente cuando la fuente lo muestra como variante separada [2].
| Necesidad de producto | Benchmark | Resultado reportado | Lectura práctica |
|---|---|---|---|
| Reparación de código en repositorios | SWE-Bench Pro Public | Claude Opus 4.7: 64,3 % vs GPT-5.5: 58,6 % [ | Claude gana en este benchmark concreto. |
| Agente de terminal/CLI | Terminal-Bench 2.0 | GPT-5.5: 82,7 % vs Claude Opus 4.7: 69,4 % [ | Es la ventaja más clara de GPT-5.5. |
| Trabajo profesional | GDPval; OfficeQA Pro | GPT-5.5: 84,9 % vs Claude: 80,3 % en GDPval; GPT-5.5: 54,1 % vs Claude: 43,6 % en OfficeQA Pro [ | GPT-5.5 sale por delante en estas dos métricas de trabajo profesional. |
| Agente financiero | FinanceAgent v1.1 | Claude: 64,4 % vs GPT-5.5: 60,0 % [ | Claude lidera esta evaluación de agente financiero. |
| Uso de ordenador, navegador y búsqueda | OSWorld-Verified; BrowseComp | GPT-5.5: 78,7 % vs Claude: 78,0 % en OSWorld; GPT-5.5: 84,4 % y GPT-5.5 Pro: 90,1 % vs Claude: 79,3 % en BrowseComp [ | Casi empate en OSWorld; ventaja de GPT-5.5 en BrowseComp. |
| Orquestación de herramientas | MCP Atlas | Claude: 79,1 % vs GPT-5.5: 75,3 % [ | Claude aparece más fuerte en escenarios con muchas herramientas. |
| Ciencia y razonamiento matemático | GPQA Diamond; FrontierMath T1–3 | Claude: 94,2 % vs GPT-5.5: 93,6 % en GPQA; GPT-5.5: 51,7 % y GPT-5.5 Pro: 52,4 % vs Claude: 43,8 % en FrontierMath [ | GPQA está muy ajustado; GPT-5.5 gana en FrontierMath. |
Cómo leer estos rankings sin sacar conclusiones de más
1. SWE-Bench Pro no es lo mismo que SWE-bench Verified
OpenAI usa SWE-Bench Pro Public en su tabla directa de GPT-5.5 frente a Claude Opus 4.7 [5]. Eso no es lo mismo que SWE-bench Verified. BenchLM describe SWE-bench Verified como un subconjunto verificado por humanos de SWE-bench que evalúa si los modelos resuelven issues reales de GitHub en repositorios Python populares como Django, Flask y scikit-learn [
21].
Por eso, el 64,3 % de Claude Opus 4.7 en SWE-Bench Pro Public no debería compararse sin más con cifras de Claude en SWE-bench Verified procedentes de otros rankings [5][
21]. Antes hay que igualar el nombre exacto del benchmark, el harness de evaluación, la fecha y la configuración del modelo.
2. GPQA Diamond ya diferencia poco entre modelos frontier
Vellum sitúa a Claude Opus 4.7 en 94,2 % y a GPT-5.5 en 93,6 % en GPQA Diamond [2]. The Next Web también reporta 94,2 % para Claude Opus 4.7, 94,4 % para GPT-5.4 Pro y 94,3 % para Gemini 3.1 Pro, y señala que esas diferencias están dentro del ruido [
17].
La conclusión práctica: GPQA todavía sirve como señal general de razonamiento científico, pero ya no basta para elegir un modelo de producción. Cuando las puntuaciones están tan pegadas, pesan más las pruebas aplicadas: repositorios propios, flujos con herramientas, navegación, permisos, latencia y coste.
3. Los rankings de terceros pueden no coincidir
En SWE-bench Verified, las cifras de Claude Opus 4.7 varían según la fuente. BenchLM reporta Claude Opus 4.7 Adaptive con 87,6 % al 24 de abril de 2026 [21]. LLM Stats también lista 87,6 % [
18]. En cambio, LM Council muestra Claude Opus 4.7 max con 83,5 % ±1,7 [
10], mientras MindStudio menciona 82,4 % [
14].
Eso no implica automáticamente que una fuente esté mal. Las diferencias suelen venir de la configuración del modelo, el harness, la fecha de la prueba y la forma en que cada ranking trata los reintentos o los modos de razonamiento. Para un equipo de producto o ingeniería, estos números funcionan mejor como lista corta inicial que como sustituto de una evaluación interna.
Claude Opus 4.7: fuerte en reparación de repositorios y flujos con muchas herramientas
La señal más favorable para Claude Opus 4.7 aparece en reparación de código y agentes que coordinan varias herramientas. En la tabla de OpenAI, Claude supera a GPT-5.5 en SWE-Bench Pro Public, 64,3 % frente a 58,6 %, y en FinanceAgent v1.1, 64,4 % frente a 60,0 % [5]. Vellum también reporta ventaja de Claude en MCP Atlas, 79,1 % frente a 75,3 % de GPT-5.5 [
2].
Anthropic añade señales de socios en flujos agentic. En la nota de lanzamiento de Claude Opus 4.7, la compañía cita a Hebbia, que observó un salto de dos dígitos en precisión de llamadas a herramientas y planificación en agentes orquestadores; también cita Rakuten-SWE-Bench, donde Opus 4.7 resuelve tres veces más tareas de producción que Opus 4.6 y logra mejoras de dos dígitos en Code Quality y Test Quality [19].
Eso es útil como indicio de producto, pero no reemplaza una prueba independiente con la carga real de cada equipo. Si el caso de uso principal es reparación autónoma de repositorios, MCP o flujos largos con múltiples herramientas, Claude Opus 4.7 merece estar primero en la cola de pruebas. Aun así, conviene validarlo con el test suite, los permisos y los patrones de tool calls que se usarán en producción.
GPT-5.5: ventaja en terminal, navegador, oficina y matemáticas en estos datos
La ventaja más visible de GPT-5.5 aparece en Terminal-Bench 2.0. OpenAI reporta 82,7 % para GPT-5.5, frente a 69,4 % de Claude Opus 4.7 y 68,5 % de Gemini 3.1 Pro [5]. En la misma tabla, GPT-5.5 también supera a Claude en GDPval wins/ties, 84,9 % frente a 80,3 %, y en OfficeQA Pro, 54,1 % frente a 43,6 % [
5].
Vellum añade más contexto para uso de ordenador, búsqueda y razonamiento. GPT-5.5 queda ligeramente por encima de Claude en OSWorld-Verified, 78,7 % frente a 78,0 %; más alto en BrowseComp, 84,4 % frente a 79,3 %; y más alto en FrontierMath T1–3, 51,7 % frente a 43,8 % [2]. Para BrowseComp, Vellum también reporta GPT-5.5 Pro con 90,1 % [
2].
En programación, la imagen es mixta. GPT-5.5 es muy fuerte en Terminal-Bench 2.0, pero queda por detrás de Claude Opus 4.7 en SWE-Bench Pro Public dentro de la tabla de OpenAI [5]. La System Card de OpenAI también describe CoT-Control para GPT-5.5, una suite de evaluación con más de 13.000 tareas construidas a partir de benchmarks como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified [
26]. Sin embargo, esa fuente no ofrece una comparación directa con DeepSeek V4 ni con Kimi K2.6 [
26].
DeepSeek V4 y Kimi K2.6: todavía no hay prueba directa en estas fuentes
Para DeepSeek V4, las fuentes disponibles no dan una cifra de benchmark directa. El dato más cercano corresponde a DeepSeek V3.2: MangoMind coloca DeepSeek V3.2 entre sus recomendaciones de coding de abril de 2026 con 89,2 % en SWE-bench, por debajo de Claude Opus 4.6 con 93,2 % y GPT-5.4 Pro con 91,1 % [1]. Ese resultado de DeepSeek V3.2 no permite concluir cómo rinde DeepSeek V4.
Con Kimi K2.6 ocurre algo parecido. Stanford HAI menciona que KimiK2.5 estaba en el grupo de modelos entre 70 % y 76 % en SWE-bench Verified a febrero de 2026 [13]. Siliconflow, por su parte, lista Kimi K2 Thinking con 84,5 en GPQA y 71,3 en SWE Bench [
6]. Ninguno de esos datos corresponde a Kimi K2.6, así que solo sirven como contexto del ecosistema Kimi, no como prueba directa para el modelo preguntado.
Qué probar primero según el caso de uso
| Si tu prioridad es... | Modelo que conviene probar primero | Base de evidencia | Matiz importante |
|---|---|---|---|
| Agente de coding en terminal/CLI | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82,7 % vs Claude 69,4 % [ | Repetir la prueba en el entorno shell, permisos y CI/CD propios. |
| Reparación autónoma de repositorios | Claude Opus 4.7, con GPT-5.5 como comparador | SWE-Bench Pro Public: Claude 64,3 % vs GPT-5.5 58,6 % [ | No mezclar con SWE-bench Verified sin igualar harness y configuración [ |
| MCP o flujos con muchas herramientas | Claude Opus 4.7 | MCP Atlas: Claude 79,1 % vs GPT-5.5 75,3 % [ | Validar con tus esquemas de herramientas, lógica de reintentos y políticas de acceso. |
| Agente de navegador o búsqueda | GPT-5.5 o GPT-5.5 Pro | BrowseComp: GPT-5.5 84,4 %, GPT-5.5 Pro 90,1 %, Claude 79,3 % [ | BrowseComp no cubre todos los patrones posibles de investigación interna. |
| Flujos financieros o profesionales | Prueba dividida entre Claude y GPT-5.5 | Claude gana en FinanceAgent v1.1, pero GPT-5.5 gana en GDPval y OfficeQA Pro [ | MindStudio subraya que la distancia entre un score financiero y una herramienta desplegada suele estar en la infraestructura end-to-end, no solo en la inteligencia del modelo [ |
| Razonamiento científico general | No elegir solo por GPQA | Claude y GPT-5.5 están muy cerca en GPQA Diamond según Vellum [ | Usar evaluaciones específicas del dominio, sobre todo si las tareas reales no se parecen al benchmark. |
Veredicto
Si se usan solo los datos head-to-head disponibles, GPT-5.5 es el candidato más fuerte para agentes de terminal/CLI, navegador/búsqueda, tareas de oficina y algunos benchmarks matemáticos [5][
2]. Claude Opus 4.7 es el candidato más sólido para SWE-Bench Pro Public, MCP/tool orchestration y FinanceAgent v1.1 [
5][
2].
DeepSeek V4 y Kimi K2.6, por ahora, no pueden clasificarse de forma justa frente a esos dos modelos con este conjunto de fuentes. Los datos disponibles hablan de otras versiones —DeepSeek V3.2, KimiK2.5 y Kimi K2 Thinking—, así que cualquier afirmación de que DeepSeek V4 o Kimi K2.6 superan a Claude Opus 4.7 o GPT-5.5 todavía no está respaldada por cifras directas aquí [1][
13][
6].




