studioglobal
热门发现
报告已发布5 来源

GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Was Benchmarks wirklich zeigen

Die sauberste gemeinsame Schnittmenge ist derzeit Terminal Bench 2.0: GPT 5.5 liegt dort mit 82,7 % vorn, vor Claude Opus 4.7, DeepSeek V4 Pro Max und Kimi K2.6 Thinking.[29][30][6] OpenAIs Tabelle zeigt GPT 5.5 in den aufgeführten Tests vor Claude Opus 4.7; DeepSeeks Modellkarte zeigt DS V4 Pro Max in den meisten g...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住AI 生成插图:多模型基准测试对比场景。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住. Article summary: 最稳妥的读法是:目前四者能较清楚横向对齐的是 Terminal Bench 2.0,GPT 5.5 以 82.7% 领先;但公开分数来自不同厂商表,不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,

openai.com

Öffentliche Benchmarks sind nützlich, wenn man eine erste Shortlist für KI-Modelle erstellen will. Sie sind aber kein Taschenrechner für eine universelle Rangliste. Bei GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 stammen die derzeit zitierbaren Informationen aus unterschiedlichen Quellen: OpenAIs GPT-5.5-Veröffentlichung und System Card, Anthropics API-Dokumentation zu Claude Opus 4.7 sowie DeepSeeks V4-Pro-Modellkarte.[29][27][13][6]

Das ist der entscheidende Punkt: Es handelt sich nicht um einen vollständigen Vierer-Vergleich unter identischen Bedingungen, durchgeführt von derselben unabhängigen Stelle.[29][27][13][6]

Erst die Modellversionen festnageln

In diesem Artikel meint DeepSeek V4 konkret DS-V4-Pro Max aus der DeepSeek-Modellkarte. Kimi K2.6 meint hier K2.6 Thinking. Diese beiden Namen sind die direkt zitierbaren Spalten in DeepSeeks Tabelle.[6]

Das klingt nach Detailarbeit, ist aber wichtig. In der DeepSeek-Modellkarte stehen bei GPT und Claude nämlich GPT-5.4 xHigh und Opus-4.6 Max — nicht GPT-5.5 und nicht Claude Opus 4.7.[6] Deshalb lässt sich aus dieser DeepSeek-Tabelle kein vollständiges Urteil darüber ableiten, ob DS-V4-Pro Max gegenüber GPT-5.5 oder Claude Opus 4.7 insgesamt besser oder schlechter abschneidet.

Auch Anthropics öffentliche API-Dokumentation zu Claude Opus 4.7 ist für diesen Zweck nur begrenzt geeignet: Sie beschreibt vor allem Funktionen und Aufrufdetails, etwa die Beta-Funktion

task budgets
, liefert aber keine Benchmark-Gesamttabelle, die man direkt mit OpenAI-, DeepSeek- und Kimi-Werten zusammenführen könnte.[13]

Die stabilste gemeinsame Schnittmenge: Terminal-Bench 2.0

Der wichtigste gemeinsame öffentliche Bezugspunkt in den vorliegenden Quellen ist Terminal-Bench 2.0. Für alle vier hier betrachteten Modelle finden sich dazu Werte. Daraus ergibt sich folgende Reihenfolge:

ModellTerminal-Bench 2.0Quelle
GPT-5.582,7 %OpenAI-Veröffentlichung und MLQ.ai-Zusammenfassung [29][30]
Claude Opus 4.769,4 %OpenAI-Veröffentlichung [29]
DeepSeek V4-Pro Max67,9 %DeepSeek V4-Pro-Modellkarte [6]
Kimi K2.6 Thinking66,7 %DeepSeek V4-Pro-Modellkarte [6]

Diese Tabelle trägt eine enge, aber brauchbare Aussage: In Terminal-Bench 2.0 liegt GPT-5.5 klar vorn; Claude Opus 4.7 folgt auf Platz zwei; DeepSeek V4-Pro Max und Kimi K2.6 Thinking liegen nahe beieinander.[29][30][6]

Mehr sollte man daraus nicht machen. Der Wert beweist nicht automatisch, dass GPT-5.5 in jedem Unternehmens-Workflow, jeder Coding-Aufgabe oder jedem Agenten-Setup überlegen ist. Dafür bräuchte man Tests mit gleichem Harness, gleichen Tool-Rechten, gleicher Kontextlänge und vergleichbarem Reasoning- beziehungsweise Token-Budget.

GPT-5.5 gegen Claude Opus 4.7: Was OpenAIs Tabelle sagt

OpenAIs Veröffentlichungsseite nennt mehrere Benchmarks, in denen GPT-5.5 und Claude Opus 4.7 direkt nebeneinander stehen. In allen dort aufgeführten Punkten liegt GPT-5.5 über Claude Opus 4.7.[29]

Benchmark in OpenAIs TabelleGPT-5.5Claude Opus 4.7
Terminal-Bench 2.082,7 %69,4 %
GDPval wins or ties84,9 %80,3 %
BrowseComp84,4 %79,3 %
FrontierMath Tier 1–351,7 %43,8 %
FrontierMath Tier 435,4 %22,9 %
CyberGym81,8 %73,1 %

Die faire Lesart lautet: Innerhalb der von OpenAI veröffentlichten Vergleichstabelle schneidet GPT-5.5 in den genannten Benchmarks besser ab als Claude Opus 4.7.[29]

OpenAIs System Card positioniert GPT-5.5 außerdem als Modell für komplexe reale Arbeit — darunter Programmieren, Online-Recherche, Informationsanalyse, Dokument- und Tabellenerstellung sowie Aufgaben, die mehrere Tools einbeziehen.[27]

Trotzdem bleibt es eine Tabelle aus einer Herstellerveröffentlichung. Sie ersetzt keinen unabhängigen Vierer-Test unter identischen Bedingungen.[29]

DeepSeek V4-Pro Max gegen Kimi K2.6 Thinking: Was DeepSeeks Tabelle sagt

DeepSeeks V4-Pro-Modellkarte enthält mehrere Vergleichswerte für DS-V4-Pro Max und K2.6 Thinking.[6] In dieser Tabelle liegt DeepSeek V4-Pro Max in den meisten gelisteten Punkten vorn, Kimi K2.6 Thinking hat aber eigene klare Spitzenwerte.[6]

Benchmark in der DeepSeek-ModellkarteDeepSeek V4-Pro MaxKimi K2.6 ThinkingTabellenführer
MMLU-Pro87,587,1DeepSeek
SimpleQA-Verified57,936,9DeepSeek
Chinese-SimpleQA84,475,9DeepSeek
GPQA Diamond90,190,5Kimi
HLE37,736,4DeepSeek
LiveCodeBench93,589,6DeepSeek
HMMT 2026 Feb95,292,7DeepSeek
IMOAnswerBench89,886,0DeepSeek
Apex Shortlist90,275,5DeepSeek
SWE Pro55,458,6Kimi
Terminal-Bench 2.067,966,7DeepSeek

Die belastbare Schlussfolgerung ist entsprechend differenziert: DS-V4-Pro Max liegt in DeepSeeks Tabelle in den meisten aufgeführten Benchmarks vor K2.6 Thinking; Kimi K2.6 Thinking führt jedoch bei GPQA Diamond und SWE Pro.[6]

Gerade bei knappen Abständen, etwa MMLU-Pro oder Terminal-Bench 2.0, sollte man nicht nur auf die Richtung des Vorsprungs schauen. Für eine Produktentscheidung zählen Aufgabenart, Varianz, Fehlertypen und die Frage, ob die Benchmark-Aufgabe dem eigenen Einsatz überhaupt ähnelt.

Warum daraus kein absoluter Vierer-Gesamtsieger folgt

Der häufigste Fehler wäre, die OpenAI-Tabelle, die DeepSeek-Tabelle und Anthropics Funktionsdokumentation zusammenzuwerfen und daraus eine Art Gesamtmeisterschaft zu berechnen. Dafür reicht die öffentliche Evidenz derzeit nicht aus.

  1. Die Versionen passen nicht zusammen. OpenAIs Tabelle vergleicht GPT-5.5 mit Claude Opus 4.7. DeepSeeks Tabelle nennt dagegen GPT-5.4 xHigh und Opus-4.6 Max.[29][6]
  2. Die Quellen sind nicht einheitlich. Die Angaben stammen aus Herstellerveröffentlichungen, System Card, API-Dokumentation und Modellkarte — nicht aus einem vollständigen unabhängigen Vierer-Benchmark mit identischem Setup.[29][27][13][6]
  3. Die Metriken messen Unterschiedliches. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond und SWE Pro prüfen verschiedene Fähigkeiten. Ohne begründete Gewichtung würde ein addierter Gesamtscore die Unterschiede zwischen realen Aufgaben eher verdecken als erklären.[29][6]

Kurz gesagt: Öffentliche Benchmarks sind ein guter Startpunkt für die Vorauswahl. Sie sind aber kein Ersatz für eine eigene Evaluation im konkreten Einsatzkontext.

Wie man die Zahlen in der Praxis nutzen sollte

Für Teams, die ein Modell für ein Produkt, ein internes Tool oder einen Agenten-Workflow auswählen, ist eine dreistufige Lesart sinnvoll:

  • Gemeinsame Benchmark-Ebene: Die derzeit klarste Vierer-Schnittmenge ist Terminal-Bench 2.0. Dort führt GPT-5.5.[29][30][6]
  • Vergleich innerhalb einer Herstellertabelle: OpenAIs Tabelle stützt die Aussage, dass GPT-5.5 in den gelisteten Punkten vor Claude Opus 4.7 liegt. DeepSeeks Modellkarte stützt die Aussage, dass DS-V4-Pro Max in den meisten aufgeführten Punkten vor K2.6 Thinking liegt.[29][6]
  • Eigene Einsatztests: Reale Aufgaben sollten nach Coding, Agentenverhalten, Reasoning, Retrieval, Tool-Nutzung, Latenz, Kosten und Fehlererholung getrennt getestet werden — mit denselben Prompts, derselben Kontextlänge, denselben Berechtigungen und denselben Bewertungsregeln.

Wenn ein Produkt stark auf lange Agenten-Schleifen setzt, ist Claude Opus 4.7s

task budgets
-Funktion einen eigenen Test wert. Anthropic beschreibt sie als grobes Token-Ziel für eine vollständige agentische Schleife, einschließlich Thinking, Tool Calls, Tool Results und finaler Ausgabe; das Modell sieht dabei einen laufenden Countdown und kann seine Arbeit entsprechend priorisieren.[13]

Wenn der Schwerpunkt eher auf komplexem Coding, Online-Recherche, Dokumenten, Tabellen oder toolübergreifender Arbeit liegt, passt OpenAIs Beschreibung von GPT-5.5 in der System Card besonders direkt zu diesen Szenarien.[27] Aber auch hier gilt: Ein guter öffentlicher Benchmark-Wert ersetzt keinen Test im eigenen Codebestand, mit der eigenen Toolchain, den eigenen Zugriffsrechten und den eigenen Regeln für Fehlerbehandlung.

Die seriöseste Ranglisten-Aussage

  • Terminal-Bench 2.0 als Einzelbenchmark: GPT-5.5 auf Platz eins, Claude Opus 4.7 auf Platz zwei, DeepSeek V4-Pro Max auf Platz drei, Kimi K2.6 Thinking auf Platz vier.[29][30][6]
  • Innerhalb von OpenAIs Tabelle: GPT-5.5 liegt in den aufgeführten Benchmarks vor Claude Opus 4.7.[29]
  • Innerhalb von DeepSeeks Tabelle: DS-V4-Pro Max liegt in den meisten gelisteten Punkten vor Kimi K2.6 Thinking; Kimi führt bei GPQA Diamond und SWE Pro.[6]
  • Absolutes Vierer-Gesamtranking: Dafür ist die Beweislage zu dünn. Es fehlt ein vollständiger Vergleich derselben Modellversionen unter denselben Testbedingungen durch dieselbe unabhängige Benchmark-Methodik.[29][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • Die sauberste gemeinsame Schnittmenge ist derzeit Terminal Bench 2.0: GPT 5.5 liegt dort mit 82,7 % vorn, vor Claude Opus 4.7, DeepSeek V4 Pro Max und Kimi K2.6 Thinking.[29][30][6]
  • OpenAIs Tabelle zeigt GPT 5.5 in den aufgeführten Tests vor Claude Opus 4.7; DeepSeeks Modellkarte zeigt DS V4 Pro Max in den meisten gelisteten Punkten vor Kimi K2.6 Thinking, mit Ausnahmen bei GPQA Diamond und SWE P...
  • Für Produktentscheidungen sollten gemeinsame Benchmarks, Herstellervergleiche und eigene Tests getrennt betrachtet werden — mit identischen Prompts, Tool Rechten, Kontextlängen, Reasoning Budgets, Latenz und Kostenmes...

人们还问

“GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Was Benchmarks wirklich zeigen”的简短答案是什么?

Die sauberste gemeinsame Schnittmenge ist derzeit Terminal Bench 2.0: GPT 5.5 liegt dort mit 82,7 % vorn, vor Claude Opus 4.7, DeepSeek V4 Pro Max und Kimi K2.6 Thinking.[29][30][6]

首先要验证的关键点是什么?

Die sauberste gemeinsame Schnittmenge ist derzeit Terminal Bench 2.0: GPT 5.5 liegt dort mit 82,7 % vorn, vor Claude Opus 4.7, DeepSeek V4 Pro Max und Kimi K2.6 Thinking.[29][30][6] OpenAIs Tabelle zeigt GPT 5.5 in den aufgeführten Tests vor Claude Opus 4.7; DeepSeeks Modellkarte zeigt DS V4 Pro Max in den meisten gelisteten Punkten vor Kimi K2.6 Thinking, mit Ausnahmen bei GPQA Diamond und SWE P...

接下来在实践中我应该做什么?

Für Produktentscheidungen sollten gemeinsame Benchmarks, Herstellervergleiche und eigene Tests getrennt betrachtet werden — mit identischen Prompts, Tool Rechten, Kontextlängen, Reasoning Budgets, Latenz und Kostenmes...

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI40 来源

引用的答案

可以,但要分开看。就我目前核实到的公开数字,四家里能直接横向对齐的共享基准其实很少;最清楚的一项是 Terminal-Bench 2.0:GPT-5.5 为 82.7%,Claude Opus 4.7 为 69.4%,DeepSeek V4-Pro Max 为 67.9%,Kimi K2.6 Thinking 为 66.7%。[5][12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表,所以可以做“有保留的比较”,但不足以稳妥给出一个统一总排名。[5][12]

Key findings

可直接对齐的共享基准GPT-5.5Claude Opus 4.7DeepSeek V4-Pro MaxKimi K2.6 Thinking
Terminal-Bench 2.0 [5][12]82.7%69.4%67.9%66.7%
  • 在 OpenAI 官方对比表中,凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目,GPT-5.5 都更高,包括 Terminal-Bench 2.0(82.7% vs 69.4%)、GDPval wins or ties(84.9% vs 80.3%)、BrowseComp(84.4% vs 79.3%)、FrontierMath Tier 1–3(51.7% vs 43.8%)、FrontierMath Tier 4(35.4% vs 22.9%)和 CyberGym(81.8% vs 73.1%)。[5]

  • 在 DeepSeek 官方模型卡的对比表中,DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高,包括 MMLU-Pro(87.5 vs 87.1)、SimpleQA-Verified(57.9 vs 36.9)、LiveCodeBench(93.5 vs 89.6)、HMMT 2026 Feb(95.2 vs 92.7)、IMOAnswerBench(89.8 vs 86.0)、Apex Shortlist(90.2 vs 75.5)以及 Terminal-Bench 2.0(67.9 vs 66.7)。[12]

  • 同一张 DeepSeek 对比表里,Kimi K2.6 Thinking 也有少数领先项,例如 GPQA Diamond(90.5 vs 90.1)和 SWE Pro(58.6 vs 55.4)。[12]

  • Anthropic 我目前能直接核实到的官方 Opus 4.7 页面,重点是功能和规格更新:Claude Opus 4.7 被描述为其“最强的通用可用模型”,支持 1M token 上下文、128k 最大输出,以及自适应 thinking 和 task budgets 等能力。[1] 但在我抓取到的官方页面内容里,没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。[1]

Evidence notes

  • 这次比较最好拆成两层:

    1. 共享 benchmark 的直接对比,目前最可靠的是 Terminal-Bench 2.0。[5][12]
    2. 厂商自报表里的组内对比,比如 GPT-5.5 vs Claude Opus 4.7,或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。[5][12]
  • OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。[5]
    DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。[12]

  • 因此,除了像 Terminal-Bench 2.0 这种真正共享的基准外,其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断,不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

  • 我目前核实到的高权威公开数字,主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页,以及 DeepSeek 的 V4-Pro 模型卡。[1][5][12]

  • 最大限制是:这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。[5][12]

  • 尤其是 GPT-5.5 / Claude Opus 4.7 的官方表,与 DeepSeek V4 / Kimi K2.6 的官方表,不共用同一组对手版本;前者是 GPT-5.5 对 Opus 4.7,后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。[5][12]

  • 所以如果问题是“谁是四者里的绝对 benchmark 第一”,目前公开证据仍然是:Insufficient evidence.

Summary

  • 如果你只看当前可直接对齐的共享公开基准,GPT-5.5 在这四个里最强,至少在 Terminal-Bench 2.0 上明显领先。[5][12]

  • 如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking,DeepSeek 在其官方表列出的多数项目上占优,但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。[12]

  • Claude Opus 4.7,目前能较有把握地说:在 OpenAI 官方表里,它落后于 GPT-5.5;但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照,因此不宜直接下四方统一总排名。[5]

如果你愿意,我下一步可以直接帮你整理成一张更实用的对比表,按 Coding / Agent / Reasoning / Vision 四个维度分开排,并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

来源

  • [6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...

  • [27] GPT-5.5 System Card - OpenAIopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...

  • [29] Introducing GPT-5.5openai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai

    Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...