studioglobal
热门发现
报告已发布5 来源

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué dicen realmente los benchmarks públicos

La comparación directa más clara entre los cuatro modelos aparece en Terminal Bench 2.0: GPT 5.5 figura con 82,7 %, Claude Opus 4.7 con 69,4 %, DeepSeek V4 Pro Max con 67,9 % y Kimi K2.6 Thinking con 66,7 %.[29][30][6] La tabla de OpenAI muestra a GPT 5.5 por encima de Claude Opus 4.7 en los benchmarks que enumera;...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住AI 生成插图:多模型基准测试对比场景。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住. Article summary: 最稳妥的读法是:目前四者能较清楚横向对齐的是 Terminal Bench 2.0,GPT 5.5 以 82.7% 领先;但公开分数来自不同厂商表,不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,

openai.com

Los benchmarks públicos sirven para hacer una primera criba. Lo que no hacen, al menos con la evidencia disponible, es convertir automáticamente a GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 en una clasificación global única.

La razón es sencilla: los datos citables vienen de documentos distintos —la página de lanzamiento y la system card de GPT-5.5 de OpenAI, la documentación de API de Claude Opus 4.7 de Anthropic y la tarjeta de modelo de DeepSeek V4-Pro—, no de una misma prueba independiente, con la misma configuración y las mismas versiones para los cuatro modelos.[29][27][13][6]

Antes de comparar: qué versión estamos mirando

En este artículo, DeepSeek V4 se refiere a DS-V4-Pro Max, y Kimi K2.6 se refiere a K2.6 Thinking. Son los nombres de columna que aparecen directamente en la tarjeta de modelo de DeepSeek.[6]

Este matiz importa. En la tabla de DeepSeek, las columnas de GPT y Claude no corresponden a GPT-5.5 ni a Claude Opus 4.7, sino a GPT-5.4 xHigh y Opus-4.6 Max.[6] Por eso, esa tabla no permite decidir por sí sola si DeepSeek V4-Pro Max gana o pierde frente a GPT-5.5 o Claude Opus 4.7.

En el caso de Anthropic, la documentación pública de Claude Opus 4.7 consultada se centra sobre todo en funciones y uso vía API, como la beta de

task budgets
, no en una tabla completa de benchmarks que pueda fusionarse directamente con las de OpenAI, DeepSeek y Kimi.[13]

La intersección más limpia: Terminal-Bench 2.0

Entre las fuentes disponibles, el benchmark compartido más claro para los cuatro modelos es Terminal-Bench 2.0. Según las tablas públicas citadas, el orden queda así:

ModeloTerminal-Bench 2.0Fuente
GPT-5.582,7 %Página de OpenAI y resumen de MLQ.ai [29][30]
Claude Opus 4.769,4 %Página de OpenAI [29]
DeepSeek V4-Pro Max67,9 %Tarjeta de modelo de DeepSeek V4-Pro [6]
Kimi K2.6 Thinking66,7 %Tarjeta de modelo de DeepSeek V4-Pro [6]

La conclusión sólida, pero limitada, es esta: en Terminal-Bench 2.0, GPT-5.5 aparece claramente por delante; Claude Opus 4.7 queda segundo; y DeepSeek V4-Pro Max y Kimi K2.6 Thinking están cerca entre sí.[29][30][6]

Lo que no se puede concluir es que GPT-5.5 vaya a ser siempre mejor en cualquier flujo de trabajo. Tampoco sustituye una repetición de pruebas con el mismo marco de evaluación, los mismos permisos de herramientas, la misma ventana de contexto y el mismo presupuesto de razonamiento.

GPT-5.5 frente a Claude Opus 4.7: lo que muestra la tabla de OpenAI

La página de lanzamiento de OpenAI incluye varios benchmarks donde compara GPT-5.5 con Claude Opus 4.7. En todos los elementos listados en esa tabla, GPT-5.5 aparece con una puntuación superior.[29]

Benchmark en la tabla de OpenAIGPT-5.5Claude Opus 4.7
Terminal-Bench 2.082,7 %69,4 %
GDPval, victorias o empates84,9 %80,3 %
BrowseComp84,4 %79,3 %
FrontierMath Tier 1–351,7 %43,8 %
FrontierMath Tier 435,4 %22,9 %
CyberGym81,8 %73,1 %

Esta tabla respalda una lectura acotada: en los benchmarks que OpenAI enumera, GPT-5.5 supera a Claude Opus 4.7.[29] Además, la system card de OpenAI presenta GPT-5.5 como un modelo orientado a trabajo complejo del mundo real, incluyendo escritura de código, investigación online, análisis de información, creación de documentos y hojas de cálculo, y tareas que requieren moverse entre herramientas.[27]

Aun así, sigue siendo una comparación publicada por OpenAI. No equivale a una evaluación independiente, con un único harness y los cuatro modelos ejecutados bajo las mismas condiciones.[29]

DeepSeek V4-Pro Max frente a Kimi K2.6 Thinking: lo que muestra la tarjeta de DeepSeek

La tarjeta de modelo de DeepSeek V4-Pro ofrece una comparación directa entre DS-V4-Pro Max y K2.6 Thinking en varios benchmarks.[6] En esa tabla, DeepSeek V4-Pro Max queda por encima en la mayoría de las pruebas, aunque Kimi también tiene ventajas claras en algunos apartados.[6]

Benchmark en la tarjeta de DeepSeekDeepSeek V4-Pro MaxKimi K2.6 ThinkingLidera en la tabla
MMLU-Pro87,587,1DeepSeek
SimpleQA-Verified57,936,9DeepSeek
Chinese-SimpleQA84,475,9DeepSeek
GPQA Diamond90,190,5Kimi
HLE37,736,4DeepSeek
LiveCodeBench93,589,6DeepSeek
HMMT 2026 Feb95,292,7DeepSeek
IMOAnswerBench89,886,0DeepSeek
Apex Shortlist90,275,5DeepSeek
SWE Pro55,458,6Kimi
Terminal-Bench 2.067,966,7DeepSeek

La lectura prudente es que DS-V4-Pro Max supera a K2.6 Thinking en la mayoría de los benchmarks incluidos por DeepSeek, mientras que Kimi K2.6 Thinking lidera en GPQA Diamond y SWE Pro.[6]

También conviene mirar la distancia, no solo quién aparece delante. En MMLU-Pro y Terminal-Bench 2.0, por ejemplo, las diferencias son estrechas. Para una decisión de producto, el tipo de tarea y el margen de error pueden importar más que la flecha de ganador.

Por qué no hay un ranking absoluto de los cuatro

El error más tentador es juntar la tabla de OpenAI, la tabla de DeepSeek y la documentación de Anthropic, sumar puntuaciones y proclamar un ganador. Con los datos públicos citados, ese salto no está justificado.

Hay tres problemas principales:

  1. Las versiones no coinciden. OpenAI compara GPT-5.5 con Claude Opus 4.7; la tabla de DeepSeek incluye GPT-5.4 xHigh y Opus-4.6 Max, no GPT-5.5 ni Claude Opus 4.7.[29][6]
  2. Las fuentes no son homogéneas. Los datos proceden de páginas de lanzamiento, una system card, documentación de API y una tarjeta de modelo. No son una repetición completa de los cuatro modelos por parte de un mismo tercero independiente.[29][27][13][6]
  3. Los indicadores miden cosas distintas. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond y SWE Pro no evalúan la misma capacidad. Sin pesos explícitos, sumarlos en una sola nota puede ocultar diferencias importantes entre tareas.[29][6]

Por eso, los benchmarks públicos funcionan mejor como primera capa de orientación que como criterio único para comprar, migrar o diseñar una arquitectura.

Cómo usar estos datos en una decisión de producto

Una forma más práctica de leerlos es por capas:

  • Capa de benchmark compartido. La intersección más clara entre los cuatro modelos es Terminal-Bench 2.0; ahí GPT-5.5 lidera.[29][30][6]
  • Capa de comparación dentro de cada proveedor. La tabla de OpenAI respalda que GPT-5.5 supera a Claude Opus 4.7 en los benchmarks listados; la tarjeta de DeepSeek respalda que DS-V4-Pro Max supera a K2.6 Thinking en la mayoría de sus pruebas.[29][6]
  • Capa de evaluación propia. Conviene dividir las tareas reales en programación, agentes, razonamiento, búsqueda o recuperación de información, uso de herramientas, latencia y coste. Después, repetir pruebas con los mismos prompts, el mismo contexto, los mismos permisos y las mismas reglas de evaluación.

Si el producto depende de bucles largos de agente, la función

task budgets
de Claude Opus 4.7 merece una prueba específica. La documentación de Anthropic dice que proporciona al modelo un objetivo aproximado de tokens para todo el ciclo agentic, incluyendo razonamiento, llamadas a herramientas, resultados de herramientas y salida final; el modelo ve una cuenta atrás del presupuesto y la usa para priorizar trabajo y cerrar la tarea de forma ordenada.[13]

Si el caso de uso se parece más a programación compleja, investigación online, creación de documentos u hojas de cálculo, o trabajo coordinado entre herramientas, la descripción de GPT-5.5 en la system card de OpenAI encaja directamente con esos escenarios.[27]

En cualquier caso, incluso un modelo que lidere en una tabla pública debe probarse dentro del entorno real: repositorio de código, herramientas disponibles, límites de permisos, políticas de recuperación ante fallos y presupuesto operativo.

La formulación más segura del ranking

  • Solo en Terminal-Bench 2.0: GPT-5.5 primero, Claude Opus 4.7 segundo, DeepSeek V4-Pro Max tercero y Kimi K2.6 Thinking cuarto.[29][30][6]
  • Dentro de la tabla de OpenAI: GPT-5.5 supera a Claude Opus 4.7 en los benchmarks listados.[29]
  • Dentro de la tabla de DeepSeek: DS-V4-Pro Max supera a Kimi K2.6 Thinking en la mayoría de las pruebas, pero Kimi lidera en GPQA Diamond y SWE Pro.[6]
  • Ranking absoluto entre los cuatro: la evidencia pública no basta. Falta una evaluación completa con el mismo tercero, las mismas versiones y las mismas condiciones de prueba para GPT-5.5, Claude Opus 4.7, DeepSeek V4-Pro Max y Kimi K2.6 Thinking.[29][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • La comparación directa más clara entre los cuatro modelos aparece en Terminal Bench 2.0: GPT 5.5 figura con 82,7 %, Claude Opus 4.7 con 69,4 %, DeepSeek V4 Pro Max con 67,9 % y Kimi K2.6 Thinking con 66,7 %.[29][30][6]
  • La tabla de OpenAI muestra a GPT 5.5 por encima de Claude Opus 4.7 en los benchmarks que enumera; la tarjeta de DeepSeek muestra a DS V4 Pro Max por encima de Kimi K2.6 Thinking en la mayoría de sus pruebas, aunque Ki...
  • Para elegir modelo en un producto real, conviene separar benchmarks compartidos, comparaciones internas de cada proveedor y pruebas propias bajo las mismas reglas: prompts, contexto, herramientas, presupuesto de razon...

人们还问

“GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué dicen realmente los benchmarks públicos”的简短答案是什么?

La comparación directa más clara entre los cuatro modelos aparece en Terminal Bench 2.0: GPT 5.5 figura con 82,7 %, Claude Opus 4.7 con 69,4 %, DeepSeek V4 Pro Max con 67,9 % y Kimi K2.6 Thinking con 66,7 %.[29][30][6]

首先要验证的关键点是什么?

La comparación directa más clara entre los cuatro modelos aparece en Terminal Bench 2.0: GPT 5.5 figura con 82,7 %, Claude Opus 4.7 con 69,4 %, DeepSeek V4 Pro Max con 67,9 % y Kimi K2.6 Thinking con 66,7 %.[29][30][6] La tabla de OpenAI muestra a GPT 5.5 por encima de Claude Opus 4.7 en los benchmarks que enumera; la tarjeta de DeepSeek muestra a DS V4 Pro Max por encima de Kimi K2.6 Thinking en la mayoría de sus pruebas, aunque Ki...

接下来在实践中我应该做什么?

Para elegir modelo en un producto real, conviene separar benchmarks compartidos, comparaciones internas de cada proveedor y pruebas propias bajo las mismas reglas: prompts, contexto, herramientas, presupuesto de razon...

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI40 来源

引用的答案

可以,但要分开看。就我目前核实到的公开数字,四家里能直接横向对齐的共享基准其实很少;最清楚的一项是 Terminal-Bench 2.0:GPT-5.5 为 82.7%,Claude Opus 4.7 为 69.4%,DeepSeek V4-Pro Max 为 67.9%,Kimi K2.6 Thinking 为 66.7%。[5][12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表,所以可以做“有保留的比较”,但不足以稳妥给出一个统一总排名。[5][12]

Key findings

可直接对齐的共享基准GPT-5.5Claude Opus 4.7DeepSeek V4-Pro MaxKimi K2.6 Thinking
Terminal-Bench 2.0 [5][12]82.7%69.4%67.9%66.7%
  • 在 OpenAI 官方对比表中,凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目,GPT-5.5 都更高,包括 Terminal-Bench 2.0(82.7% vs 69.4%)、GDPval wins or ties(84.9% vs 80.3%)、BrowseComp(84.4% vs 79.3%)、FrontierMath Tier 1–3(51.7% vs 43.8%)、FrontierMath Tier 4(35.4% vs 22.9%)和 CyberGym(81.8% vs 73.1%)。[5]

  • 在 DeepSeek 官方模型卡的对比表中,DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高,包括 MMLU-Pro(87.5 vs 87.1)、SimpleQA-Verified(57.9 vs 36.9)、LiveCodeBench(93.5 vs 89.6)、HMMT 2026 Feb(95.2 vs 92.7)、IMOAnswerBench(89.8 vs 86.0)、Apex Shortlist(90.2 vs 75.5)以及 Terminal-Bench 2.0(67.9 vs 66.7)。[12]

  • 同一张 DeepSeek 对比表里,Kimi K2.6 Thinking 也有少数领先项,例如 GPQA Diamond(90.5 vs 90.1)和 SWE Pro(58.6 vs 55.4)。[12]

  • Anthropic 我目前能直接核实到的官方 Opus 4.7 页面,重点是功能和规格更新:Claude Opus 4.7 被描述为其“最强的通用可用模型”,支持 1M token 上下文、128k 最大输出,以及自适应 thinking 和 task budgets 等能力。[1] 但在我抓取到的官方页面内容里,没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。[1]

Evidence notes

  • 这次比较最好拆成两层:

    1. 共享 benchmark 的直接对比,目前最可靠的是 Terminal-Bench 2.0。[5][12]
    2. 厂商自报表里的组内对比,比如 GPT-5.5 vs Claude Opus 4.7,或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。[5][12]
  • OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。[5]
    DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。[12]

  • 因此,除了像 Terminal-Bench 2.0 这种真正共享的基准外,其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断,不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

  • 我目前核实到的高权威公开数字,主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页,以及 DeepSeek 的 V4-Pro 模型卡。[1][5][12]

  • 最大限制是:这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。[5][12]

  • 尤其是 GPT-5.5 / Claude Opus 4.7 的官方表,与 DeepSeek V4 / Kimi K2.6 的官方表,不共用同一组对手版本;前者是 GPT-5.5 对 Opus 4.7,后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。[5][12]

  • 所以如果问题是“谁是四者里的绝对 benchmark 第一”,目前公开证据仍然是:Insufficient evidence.

Summary

  • 如果你只看当前可直接对齐的共享公开基准,GPT-5.5 在这四个里最强,至少在 Terminal-Bench 2.0 上明显领先。[5][12]

  • 如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking,DeepSeek 在其官方表列出的多数项目上占优,但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。[12]

  • Claude Opus 4.7,目前能较有把握地说:在 OpenAI 官方表里,它落后于 GPT-5.5;但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照,因此不宜直接下四方统一总排名。[5]

如果你愿意,我下一步可以直接帮你整理成一张更实用的对比表,按 Coding / Agent / Reasoning / Vision 四个维度分开排,并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

来源

  • [6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...

  • [27] GPT-5.5 System Card - OpenAIopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...

  • [29] Introducing GPT-5.5openai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai

    Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...