studioglobal
Tendencias en Descubrir
InformesPublicado8 fuentes

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo gana en cada benchmark

Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 %; además, es el único con resultado citado como N.º 1 en Vision & Document Arena [4][1]. GPT 5.5 destaca en Terminal Bench 2.0 con 82,7 %, OSWorld Verified con 78,7 % y FrontierMath Tiers 1–3 con 51,7 %, mientras GPT 5.5...

15K0
Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
Prompt de IA

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S

openai.com

Las tablas de benchmarks prometen una respuesta sencilla, pero este cruce no se resuelve con un único campeón. La tabla común más sólida compara GPT-5.5, GPT-5.5 Pro cuando aparece, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 entra sobre todo por comparativas separadas, así que sus resultados son señales útiles, no una liga perfectamente homogénea [4][11][13].

La forma práctica de leer estos datos es menos glamorosa, pero más útil: elige el benchmark que más se parezca a tu trabajo real y después prueba los finalistas con tus propios prompts, herramientas, límites de contexto y criterios de calidad.

Ganadores rápidos por tipo de trabajo

Carga de trabajoOpción mejor respaldadaPor qué
Razonamiento científicoClaude Opus 4.794,2 % en GPQA Diamond, por delante de GPT-5.5 con 93,6 % y DeepSeek-V4-Pro-Max con 90,1 % [4]
Razonamiento experto sin herramientasClaude Opus 4.746,9 % en Humanity’s Last Exam sin herramientas, frente a 43,1 % de GPT-5.5 Pro, 41,4 % de GPT-5.5 y 37,7 % de DeepSeek-V4-Pro-Max [4]
Razonamiento con herramientasGPT-5.5 Pro57,2 % en Humanity’s Last Exam con herramientas, por delante de Claude Opus 4.7 con 54,7 % [4]
Terminal y agentes informáticosGPT-5.582,7 % en Terminal-Bench 2.0, frente a 69,4 % de Claude Opus 4.7 y 67,9 % de DeepSeek-V4-Pro-Max [4][5]
Operación de sistema operativoGPT-5.578,7 % en OSWorld-Verified frente a 78,0 % de Claude Opus 4.7 [5]
Matemáticas de fronteraGPT-5.551,7 % en FrontierMath Tiers 1–3 frente a 43,8 % de Claude Opus 4.7 [5]
Ingeniería de software en la tabla compartidaClaude Opus 4.764,3 % en SWE-Bench Pro / SWE Pro, por delante de GPT-5.5 con 58,6 % y DeepSeek-V4-Pro-Max con 55,4 % [4]
Navegación webGPT-5.5 Pro90,1 % en BrowseComp, por delante de GPT-5.5 con 84,4 %, DeepSeek-V4-Pro-Max con 83,4 % y Claude Opus 4.7 con 79,3 % [4]
Flujos con herramientas tipo MCPClaude Opus 4.779,1 % en MCP Atlas / MCPAtlas Public, frente a 75,3 % de GPT-5.5 y 73,6 % de DeepSeek-V4-Pro-Max [4]
Visión y análisis documentalClaude Opus 4.7Reportado como N.º 1 en Vision & Document Arena, con victorias en diagramas, tareas escolares y OCR [1]
Presupuesto muy sensibleDeepSeek V4VentureBeat lo describe como inteligencia casi de frontera a alrededor de una sexta parte del costo de Opus 4.7 y GPT-5.5, aunque ese ahorro debe validarse en tu propia carga [4]
Comparación menos limpia a cuatro bandasKimi K2.6Tiene puntuaciones útiles, pero la evidencia citada aparece sobre todo en comparativas separadas de la tabla GPT-5.5 / Claude Opus 4.7 / DeepSeek-V4-Pro-Max [11][13]

Tabla detallada de benchmarks

Benchmark / capacidadGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4 / V4 Pro MaxKimi K2.6Lectura más sólida
GPQA Diamond93,6 % [4]No informado94,2 % [4]90,1 % para DeepSeek-V4-Pro-Max [4]No informadoClaude lidera la tabla compartida [4]
Humanity’s Last Exam, sin herramientas41,4 % [4]43,1 % [4]46,9 % [4]37,7 % para DeepSeek-V4-Pro-Max [4]No informadoClaude lidera la tabla compartida [4]
Humanity’s Last Exam, con herramientas52,2 % [4]57,2 % [4]54,7 % [4]48,2 % para DeepSeek-V4-Pro-Max [4]54,0 % en una comparación separada de Kimi [13]GPT-5.5 Pro lidera la tabla compartida [4]
Terminal-Bench 2.082,7 % [4][5]No informado69,4 % [4][5]67,9 % para DeepSeek-V4-Pro-Max [4]66,7 % en una comparación separada de Kimi [13]GPT-5.5 lidera [4][5]
SWE-Bench Pro / SWE Pro58,6 % [4]No informado64,3 % [4]55,4 % para DeepSeek-V4-Pro-Max [4]58,6 % en una comparación separada de Kimi [13]Claude lidera la tabla compartida [4]
BrowseComp84,4 % [4]90,1 % [4]79,3 % [4]83,4 % para DeepSeek-V4-Pro-Max [4]; 83,4 % para DeepSeek-V4 Pro en otra comparación [11]83,2 % en una comparación Kimi vs DeepSeek [11]GPT-5.5 Pro lidera la tabla compartida [4]
MCP Atlas / MCPAtlas Public75,3 % [4]No informado79,1 % [4]73,6 % para DeepSeek-V4-Pro-Max [4]No informadoClaude lidera [4]
OSWorld-Verified78,7 % [5]No informado78,0 % [5]No informadoNo informadoGPT-5.5 supera a Claude por poco [5]
FrontierMath Tiers 1–351,7 % [5]No informado43,8 % [5]No informadoNo informadoGPT-5.5 lidera frente a Claude [5]
Vision & Document ArenaNo informadoNo informadoReportado como N.º 1 general [1]No informadoNo informadoClaude tiene el único resultado citado [1]
AIME 2026No informadoNo informadoNo informadoNo disponible en la tabla Kimi vs DeepSeek citada [11]96,4 % en modo Thinking [11]Señal útil para Kimi, no ranking a cuatro bandas [11]
APEX AgentsNo informadoNo informadoNo informadoNo disponible en la tabla Kimi vs DeepSeek citada [11]27,9 % en modo Thinking [11]Señal útil para Kimi, no ranking a cuatro bandas [11]
Ventana de contextoNo informadoNo informado1.000k tokens en una comparación de Artificial Analysis [3]1.000k tokens para DeepSeek V4 Pro en la misma comparación [3]No informadoClaude y DeepSeek V4 Pro empatan en esa configuración [3]

Las filas que mezclan fuentes deben leerse con cuidado. Una puntuación de Kimi reportada en una comparación centrada en Kimi puede orientar una prueba, pero no pesa igual que un resultado obtenido en la misma tabla y con el mismo arnés que GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [4][11][13].

GPT-5.5: fuerte en terminal, sistemas, matemáticas y uso de herramientas

La victoria más clara de GPT-5.5 está en Terminal-Bench 2.0: 82,7 % frente a 69,4 % de Claude Opus 4.7 y 67,9 % de DeepSeek-V4-Pro-Max en la tabla compartida [4][5]. Es una de las diferencias más grandes del conjunto citado.

También supera a Claude Opus 4.7 en OSWorld-Verified, aunque por un margen mínimo: 78,7 % frente a 78,0 % [5]. En FrontierMath Tiers 1–3, la ventaja es más visible: 51,7 % frente al 43,8 % de Claude [5].

GPT-5.5 Pro cambia la foto cuando importan las herramientas o la navegación. Lidera Humanity’s Last Exam con herramientas con 57,2 %, por delante de Claude Opus 4.7 con 54,7 %, GPT-5.5 con 52,2 % y DeepSeek-V4-Pro-Max con 48,2 % [4]. También encabeza BrowseComp con 90,1 %, frente a 84,4 % de GPT-5.5, 83,4 % de DeepSeek-V4-Pro-Max y 79,3 % de Claude Opus 4.7 [4].

Eso no significa que GPT-5.5 gane todo razonamiento. Claude Opus 4.7 lo supera por muy poco en GPQA Diamond: 94,2 % frente a 93,6 % en la tabla compartida [4]. Una guía separada reporta métricas solo para GPT-5.5, como 91,7 % en Harvey BigLaw Bench, 88,5 % en un benchmark interno de banca de inversión y 80,5 % en BixBench, pero esas cifras no deben tratarse como victorias a cuatro bandas porque el extracto citado no da los mismos resultados para Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 [7].

Claude Opus 4.7: mejor perfil citado sin herramientas y en documentos

Claude Opus 4.7 tiene el perfil más sólido de razonamiento sin herramientas en la tabla principal. Lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 % [4]. En la misma tabla también encabeza SWE-Bench Pro / SWE Pro con 64,3 % y MCP Atlas / MCPAtlas Public con 79,1 % [4].

Su punto débil, según estos datos, aparece en tareas de operación tipo terminal. GPT-5.5 le saca más de 13 puntos en Terminal-Bench 2.0, 82,7 % frente a 69,4 %, y también lo supera en OSWorld-Verified y FrontierMath Tiers 1–3 [4][5].

En multimodalidad y documentos, Claude tiene la señal citada más fuerte. Una fuente reporta que Claude Opus 4.7 ocupa el N.º 1 en Vision & Document Arena, mejora en 4 puntos a Opus 4.6 en Document Arena y gana subcategorías de diagramas, tareas escolares y OCR [1]. Esa misma fuente no aporta puntuaciones numéricas comparables para GPT-5.5, DeepSeek V4 o Kimi K2.6, así que respalda la fortaleza documental de Claude, pero no un ranking multimodal completo a cuatro bandas [1].

DeepSeek V4: competitivo, con el argumento principal en precio/rendimiento

Las fuentes no usan siempre la misma etiqueta de DeepSeek. La tabla compartida habla de DeepSeek-V4-Pro-Max, mientras que la comparación de Artificial Analysis menciona DeepSeek V4 Pro con una ventana de contexto de 1.000k tokens [4][3]. Conviene no tratar esas etiquetas como automáticamente intercambiables.

En la tabla compartida, DeepSeek-V4-Pro-Max compite de cerca, pero no lidera ninguna fila. Sus resultados son 90,1 % en GPQA Diamond, 37,7 % en Humanity’s Last Exam sin herramientas, 48,2 % en Humanity’s Last Exam con herramientas, 67,9 % en Terminal-Bench 2.0, 55,4 % en SWE-Bench Pro / SWE Pro, 83,4 % en BrowseComp y 73,6 % en MCP Atlas / MCPAtlas Public [4].

Su reclamo más fuerte no es una victoria de benchmark, sino el precio/rendimiento. VentureBeat describe DeepSeek V4 como capaz de ofrecer inteligencia casi de estado del arte a alrededor de una sexta parte del costo de Opus 4.7 y GPT-5.5 [4]. Eso justifica probarlo si el presupuesto pesa mucho, pero no sustituye una validación con tus tareas reales.

Para filtros de contexto largo, una comparación de Artificial Analysis lista tanto a DeepSeek V4 Pro como a Claude Opus 4.7 con ventanas de contexto de 1.000k tokens [3]. Eso indica paridad en esas configuraciones concretas, no una conclusión general sobre todos los modos de DeepSeek o Claude [3].

Kimi K2.6: señales prometedoras, comparabilidad más débil

Kimi K2.6 es el modelo más difícil de ordenar limpiamente aquí porque no aparece en la tabla principal junto a GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [4]. Una comparación centrada en Kimi reporta K2.6 con 58,6 % en SWE-Bench Pro, 80,2 % en SWE-Bench Verified, 66,7 % en Terminal-Bench 2.0, 54,0 % en Humanity’s Last Exam con herramientas y 89,6 % en LiveCodeBench v6 [13]. Esa fuente indica que los números de K2.6 vienen de una model card oficial de Moonshot AI, pero el conjunto comparativo se centra sobre todo en Claude Opus 4.6 y GPT-5.4, no exactamente en los cuatro modelos de este artículo [13].

Otra comparación Kimi vs DeepSeek reporta Kimi K2.6 con 96,4 % en AIME 2026 en modo Thinking, 27,9 % en APEX Agents en modo Thinking y 83,2 % en BrowseComp con modo Thinking y gestión de contexto [11]. En esa misma fuente, DeepSeek-V4 Pro aparece con 83,4 % en BrowseComp, mientras que no hay valores disponibles para DeepSeek en AIME 2026 y APEX Agents [11].

La lectura razonable: Kimi merece pruebas, sobre todo si te interesan codificación, agentes, matemáticas o navegación, pero las fuentes citadas no permiten afirmar un ranking global limpio frente a GPT-5.5 y Claude Opus 4.7 sobre la misma batería de benchmarks [11][13].

Qué modelo probar primero

  • Prueba GPT-5.5 primero si tu carga depende de agentes en terminal, operación de entornos de sistema o matemáticas tipo FrontierMath; lidera los resultados citados de Terminal-Bench 2.0, OSWorld-Verified y FrontierMath [4][5].
  • Prueba GPT-5.5 Pro primero si el trabajo central combina razonamiento con herramientas o navegación web; lidera Humanity’s Last Exam con herramientas y BrowseComp en la tabla compartida [4].
  • Prueba Claude Opus 4.7 primero para razonamiento científico tipo GPQA, preguntas expertas sin herramientas, ingeniería de software al estilo SWE-Bench Pro, flujos MCP y trabajo multimodal cargado de documentos [4][1].
  • Prueba DeepSeek V4 primero si el precio/rendimiento es la restricción principal y puedes medir calidad por tu cuenta; la ventaja citada es rendimiento casi de frontera a alrededor de una sexta parte del costo de Opus 4.7 y GPT-5.5 [4].
  • Prueba Kimi K2.6 primero si quieres evaluar específicamente sus resultados reportados en codificación, agentes, matemáticas y navegación, pero compáralo con los mismos prompts, herramientas, límites de contexto, objetivos de latencia y reglas de evaluación que uses para los demás modelos [11][13].

Cautelas importantes antes de decidir

Esto no es una clasificación universal. Las fuentes mezclan variantes base y Pro, incluidos GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 y Kimi K2.6 [3][4][11][13]. Algunas mediciones también son reportadas por proveedores, y OpenAI señala que sus evaluaciones GPT para ARC se ejecutaron con esfuerzo de razonamiento xhigh en un entorno de investigación que puede diferir del ChatGPT de producción [5][8].

Los márgenes pequeños deben leerse como señales, no como veredictos. La ventaja de Claude sobre GPT-5.5 en GPQA Diamond es de 0,6 puntos, y la ventaja de GPT-5.5 sobre Claude en OSWorld-Verified es de 0,7 puntos [4][5]. Las diferencias grandes son más accionables: GPT-5.5 supera a Claude por más de 13 puntos en Terminal-Bench 2.0 y por 7,9 puntos en FrontierMath [5].

Conclusión práctica: no hay un ganador único entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6. Usa el benchmark que mejor se parezca a tu carga real, reduce la lista a dos o tres candidatos y vuelve a evaluarlos con el mismo flujo que piensas usar en producción.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

  • Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 %; además, es el único con resultado citado como N.º 1 en Vision & Document Arena [4][1].
  • GPT 5.5 destaca en Terminal Bench 2.0 con 82,7 %, OSWorld Verified con 78,7 % y FrontierMath Tiers 1–3 con 51,7 %, mientras GPT 5.5 Pro lidera HLE con herramientas y BrowseComp [4][5].
  • DeepSeek V4 no gana filas en la tabla compartida, pero se cita por rendimiento/precio; Kimi K2.6 tiene señales prometedoras, aunque sus datos vienen sobre todo de comparativas separadas [4][11][13].

La gente también pregunta

¿Cuál es la respuesta corta a "GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo gana en cada benchmark"?

Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 %; además, es el único con resultado citado como N.º 1 en Vision & Document Arena [4][1].

¿Cuáles son los puntos clave a validar primero?

Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 %; además, es el único con resultado citado como N.º 1 en Vision & Document Arena [4][1]. GPT 5.5 destaca en Terminal Bench 2.0 con 82,7 %, OSWorld Verified con 78,7 % y FrontierMath Tiers 1–3 con 51,7 %, mientras GPT 5.5 Pro lidera HLE con herramientas y BrowseComp [4][5].

¿Qué debo hacer a continuación en la práctica?

DeepSeek V4 no gana filas en la tabla compartida, pero se cita por rendimiento/precio; Kimi K2.6 tiene señales prometedoras, aunque sus datos vienen sobre todo de comparativas separadas [4][11][13].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Madera del Noroeste vs. del Sureste: por qué la respuesta es larger; larger".

Abrir página relacionada

Continúe su investigación

Conversación de investigación

Pregunta de investigación

Research benchmarks for GPT-5.5, Claude Opus 4.7, DeepSeek V4, and Kimi K2.6, and compare them as comprehensively as possible. Create a research report on this.

Studio Global AI21 fuentes

Respuesta citada

The available evidence supports a clear but incomplete picture: Claude Opus 4.7 leads the cited GPQA Diamond and Humanity’s Last Exam no-tools results and is reported #1 in Vision & Document Arena [4][1]. GPT-5.5 leads the cited Terminal-Bench 2.0, OSWorld-Verified, and FrontierMath results, while GPT-5.5 Pro leads Humanity’s Last Exam with tools [4][5]. DeepSeek V4 is reported as near-frontier at much lower cost and as the top open-weight model on one coding benchmark, but Kimi K2.6 has insufficient numeric evidence in the provided excerpts for a full benchmark comparison [4][18][1].

Key findings

  • Claude Opus 4.7 has the strongest cited results on GPQA Diamond at 94.2% versus GPT-5.5 at 93.6% and DeepSeek-V4-Pro-Max at 90.1% [4].

  • Claude Opus 4.7 also leads the cited Humanity’s Last Exam no-tools result at 46.9%, ahead of GPT-5.5 Pro at 43.1%, GPT-5.5 at 41.4%, and DeepSeek-V4-Pro-Max at 37.7% [4].

  • GPT-5.5 Pro leads the cited Humanity’s Last Exam with-tools result at 57.2%, ahead of Claude Opus 4.7 at 54.7%, GPT-5.5 at 52.2%, and DeepSeek-V4-Pro-Max at 48.2% [4].

  • GPT-5.5 is strongest in the cited terminal/agentic-computing benchmarks: it scores 82.7% on Terminal-Bench 2.0, compared with Claude Opus 4.7 at 69.4% and DeepSeek-V4-Pro-Max at 67.9% [4][5].

  • GPT-5.5 narrowly leads Claude Opus 4.7 on OSWorld-Verified, 78.7% versus 78.0% [5].

  • GPT-5.5 leads Claude Opus 4.7 on FrontierMath Tiers 1–3, 51.7% versus 43.8% [5].

  • Claude Opus 4.7 is reported #1 in Vision & Document Arena, with a +4 point improvement over Opus 4.6 in Document Arena and wins in diagram, homework, and OCR subcategories [1].

  • DeepSeek V4 is described as achieving near state-of-the-art intelligence at about one-sixth the cost of Opus 4.7 and GPT-5.5, but the available evidence does not provide the underlying price schedule or methodology [4].

  • DeepSeek V4 is claimed to be the #1 open-weight model on a Vibe Code Benchmark, ahead of Kimi K2.6 at #2, but this evidence comes from a Reddit snippet rather than a full benchmark report [18].

  • Kimi K2.6 is described as a leading open-model refresh, but the provided evidence does not include enough numeric Kimi K2.6 scores to compare it comprehensively with GPT-5.5, Claude Opus 4.7, or DeepSeek V4 [1].

Benchmark comparison table

Benchmark / capabilityGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4Kimi K2.6Leader in available evidence
GPQA Diamond93.6% [4]Insufficient evidence94.2% [4]90.1% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceClaude Opus 4.7 [4]
Humanity’s Last Exam, no tools41.4% [4]43.1% [4]46.9% [4]37.7% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceClaude Opus 4.7 [4]
Humanity’s Last Exam, with tools52.2% [4]57.2% [4]54.7% [4]48.2% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceGPT-5.5 Pro [4]
Terminal-Bench 2.082.7% [4][5]Insufficient evidence69.4% [4][5]67.9% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceGPT-5.5 [4][5]
OSWorld-Verified78.7% [5]Insufficient evidence78.0% [5]Insufficient evidenceInsufficient evidenceGPT-5.5 [5]
FrontierMath Tiers 1–351.7% [5]Insufficient evidence43.8% [5]Insufficient evidenceInsufficient evidenceGPT-5.5 [5]
Vision & Document ArenaInsufficient evidenceInsufficient evidenceReported #1 overall [1]Insufficient evidenceInsufficient evidenceClaude Opus 4.7 [1]
Vibe Code BenchmarkInsufficient evidenceInsufficient evidenceInsufficient evidenceClaimed #1 open-weight model [18]Claimed #2 open-weight model [18]DeepSeek V4 among open-weight models, low-confidence evidence [18]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens in one cited comparison [3]1,000k tokens for DeepSeek V4 Pro in one cited comparison [3]Insufficient evidenceTie between Claude Opus 4.7 and DeepSeek V4 Pro in available evidence [3]

Model-by-model assessment

GPT-5.5

  • GPT-5.5’s clearest advantage is agentic computing and operational task performance, led by its 82.7% Terminal-Bench 2.0 score [4][5].

  • GPT-5.5 also edges Claude Opus 4.7 on OSWorld-Verified, 78.7% versus 78.0% [5].

  • GPT-5.5 shows a larger advantage over Claude Opus 4.7 on FrontierMath Tiers 1–3, 51.7% versus 43.8% [5].

  • GPT-5.5 trails Claude Opus 4.7 on GPQA Diamond by 0.6 points, 93.6% versus 94.2% [4].

  • GPT-5.5 Pro is the best cited model on Humanity’s Last Exam with tools, scoring 57.2% versus Claude Opus 4.7 at 54.7% [4].

  • Additional GPT-5.5-only domain benchmarks include 91.7% on Harvey BigLaw Bench with 43% perfect scores, 88.5% on an internal investment-banking benchmark, and 80.5% on BixBench bioinformatics [7]. These results are not directly comparable to the other three models because the provided excerpt does not include their scores on those same benchmarks [7].

Claude Opus 4.7

  • Claude Opus 4.7 is the strongest cited model on GPQA Diamond, scoring 94.2% [4].

  • Claude Opus 4.7 is also the strongest cited model on Humanity’s Last Exam without tools, scoring 46.9% [4].

  • Claude Opus 4.7 ranks below GPT-5.5 Pro on Humanity’s Last Exam with tools, 54.7% versus 57.2% [4].

  • Claude Opus 4.7 trails GPT-5.5 on Terminal-Bench 2.0 by more than 13 points, 69.4% versus 82.7% [4][5].

  • Claude Opus 4.7 is reported #1 in Vision & Document Arena and is said to lead in diagram, homework, and OCR subcategories [1].

  • Claude Opus 4.7 has a cited 1,000k-token context window in an Artificial Analysis comparison with DeepSeek V4 Pro [3].

DeepSeek V4

  • DeepSeek-V4-Pro-Max is competitive but trails GPT-5.5 and Claude Opus 4.7 on the cited GPQA Diamond, Humanity’s Last Exam, and Terminal-Bench 2.0 results [4].

  • DeepSeek-V4-Pro-Max scores 90.1% on GPQA Diamond, 37.7% on Humanity’s Last Exam without tools, 48.2% on Humanity’s Last Exam with tools, and 67.9% on Terminal-Bench 2.0 [4].

  • DeepSeek V4 is described as delivering near state-of-the-art intelligence at about one-sixth the cost of Opus 4.7 and GPT-5.5, but the excerpt does not provide enough detail to verify cost normalization or workload assumptions [4].

  • DeepSeek V4 Pro is cited with a 1,000k-token context window in a comparison against Claude Opus 4.7 [3].

  • A Reddit snippet claims DeepSeek V4 is the #1 open-weight model on a Vibe Code Benchmark and ranks above Kimi K2.6, but this should be treated as low-confidence evidence because the provided excerpt lacks a full methodology or score table [18].

Kimi K2.6

  • Kimi K2.6 has the weakest quantitative coverage in the available evidence [1][18].

  • One source describes Kimi K2.6 as a leading open-model refresh, but the provided excerpt does not expose benchmark scores that can be compared against GPT-5.5, Claude Opus 4.7, or DeepSeek V4 [1].

  • The only direct Kimi ranking in the available evidence is a Reddit snippet claiming Kimi K2.6 is #2 behind DeepSeek V4 on a Vibe Code Benchmark among open-weight models [18].

  • Insufficient evidence: the provided material does not support a comprehensive numerical evaluation of Kimi K2.6 across reasoning, math, coding, agentic-computing, multimodal, or long-context benchmarks.

Evidence notes

  • The most usable quantitative cross-model evidence comes from the cited table comparing DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro where available, and Claude Opus 4.7 across GPQA Diamond, Humanity’s Last Exam, and Terminal-Bench 2.0 [4].

  • GPT-5.5 versus Claude Opus 4.7 is additionally supported by a separate source reporting the same Terminal-Bench 2.0 figures and adding OSWorld-Verified and FrontierMath results [5].

  • The cited Artificial Analysis comparison provides context-window information for DeepSeek V4 Pro and Claude Opus 4.7, both listed at 1,000k tokens in that comparison [3].

  • The Vision & Document Arena evidence supports Claude Opus 4.7’s multimodal/document strength, but it does not provide numeric scores for GPT-5.5, DeepSeek V4, or Kimi K2.6 [1].

  • The Mashable and Design for Online snippets do not provide benchmark values in the supplied evidence, so they cannot support quantitative conclusions here [2][6].

Limitations / uncertainty

  • Insufficient evidence: no primary model cards, official benchmark reports, full prompt settings, confidence intervals, or independent reproducibility details are included in the provided evidence.

  • Insufficient evidence: Kimi K2.6 lacks numeric benchmark coverage in the provided excerpts, so any Kimi ranking beyond the Vibe Code claim is unsupported [1][18].

  • The benchmark comparisons mix model variants and modes, including GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, and Claude Opus 4.7 with differing reasoning or effort settings [3][4].

  • The Vibe Code claim for DeepSeek V4 and Kimi K2.6 is low confidence because the available evidence is a Reddit snippet without benchmark scores or methodology [18].

  • The cost-performance claim for DeepSeek V4 is promising but under-specified because the provided evidence reports “1/6th the cost” without enough details to normalize by token pricing, latency, benchmark workload, or deployment assumptions [4].

Summary

  • Best cited reasoning/science model: Claude Opus 4.7, based on GPQA Diamond and Humanity’s Last Exam without tools [4].

  • Best cited tool-augmented exam result: GPT-5.5 Pro, based on Humanity’s Last Exam with tools [4].

  • Best cited terminal/agentic-computing model: GPT-5.5, based on Terminal-Bench 2.0 [4][5].

  • Best cited OS/world-operation and math results between GPT-5.5 and Claude Opus 4.7: GPT-5.5, based on OSWorld-Verified and FrontierMath [5].

  • Best cited multimodal/document model: Claude Opus 4.7, based on Vision & Document Arena reporting [1].

  • Best cited open-weight coding claim: DeepSeek V4 over Kimi K2.6 on Vibe Code, but this is low-confidence because the evidence is only a Reddit snippet [18].

  • Most under-evidenced model: Kimi K2.6, because the provided evidence does not include enough quantitative benchmark results for a comprehensive comparison [1][18].

Fuentes

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model refreshes to catch up to Opus 4.6 (ahead of DeepSeek v4?)latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [3] DeepSeek V4 Pro (Reasoning, Max Effort) vs Claude Opus 4.7 (Non-reasoning, High Effort): Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, Max Effort) Anthropic logoClaude Opus 4.7 (Non-reasoning, High Effort) Analysis --- --- Creator DeepSeek Anthropic Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 page...

  • [4] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [5] Everything You Need to Know About GPT-5.5vellum.ai

    The headline numbers GPT-5.5 achieves state-of-the-art on Terminal-Bench 2.0 at 82.7%, leading Claude Opus 4.7 (69.4%) by over 13 points. On OSWorld-Verified, which tests real computer environment operation, it edges out Claude at 78.7% vs 78.0%. On Frontie...

  • [7] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Domain-Specific Benchmarks Benchmark GPT-5.5 Notes --- Harvey BigLaw Bench 91.7% (43% perfect scores) Legal reasoning, audience calibration Internal Investment Banking 88.5% Financial analysis tasks BixBench (bioinformatics) 80.5% (up from 74.0%) +6.5pts ov...

  • [8] Introducing GPT-5.5 - OpenAIopenai.com

    Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...

  • [11] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [13] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo gana en cada benchmark | Investigación profunda | Studio Global