studioglobal
熱門發現
報告已發布10 來源

GPT-5.5 對 Claude Opus 4.7、DeepSeek V4、Kimi K2.6:Benchmark 邊個真係領先?

GPT 5.5 是目前證據最完整的 all rounder:Artificial Analysis 片段中 xhigh 版本得 60 分,BrowseComp 得 84.4% [2][3]。 Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 高過 GPT 5.5 的 58.6%,GPQA Diamond 亦以 94.2% 略高於 GPT 5.5 的 93.6%;但 GPT 5.5 在 Terminal Bench 2.0 以 82.7% 明顯高過 Claude 的 69.4% [8][22][24]。

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

如果只想要一個「冠軍名單」,呢組比較好容易睇錯。現有資料並唔係由同一個獨立實驗室、同一套設定,一次過測 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6;而係來自不同 benchmark、不同模型變體、供應商公布數字同二手分析 [2][3][7][21]

較穩陣嘅讀法係:GPT-5.5 係證據最完整嘅全能型領先者;Claude Opus 4.7 在多個 coding 同知識測試有突出勝位;DeepSeek V4 最搶眼係性價比;Kimi K2.6 技術規格吸引,但資料不足以同其餘三個硬排 [1][2][3][7][22][24]

先講答案:唔係一個模型通殺

GPT-5.5:目前最有根據嘅 all-rounder。 Artificial Analysis 片段顯示,GPT-5.5 xhigh 在 Intelligence Index 得 60 分,GPT-5.5 high 得 59 分,Claude Opus 4.7 得 57 分 [2]。BrowseComp 方面,GPT-5.5 得 84.4%,DeepSeek V4 得 83.4%,Claude Opus 4.7 得 79.3%;GPT-5.5 Pro 則高至 90.1% [3]

Claude Opus 4.7:寫 code、知識問答特別有競爭力。 在 SWE-Bench Pro,Claude Opus 4.7 以 64.3% 高過 GPT-5.5 的 58.6% [22][24]。在 GPQA Diamond,Claude 94.2% 亦略高於 GPT-5.5 的 93.6% [8][22]。不過 Terminal-Bench 2.0 反過來由 GPT-5.5 明顯領先,82.7% 對 Claude 的 69.4% [22][24]

DeepSeek V4:最似性價比挑戰者。 VentureBeat 指 BrowseComp 入面 DeepSeek V4 有 83.4%,只比 GPT-5.5 低 1.0 個百分點,亦高過 Claude Opus 4.7 的 79.3% [3]。Mashable 同時列出 API 價格:DeepSeek V4 每 100 萬 input tokens 為 US$1.74、每 100 萬 output tokens 為 US$3.48;GPT-5.5 為 US$5/US$30,Claude Opus 4.7 為 US$5/US$25 [1]

Kimi K2.6:值得留意,但唔應該夾硬排位。 DocsBot 將 Kimi K2.6 形容為 open-source、原生多模態、agentic 模型,使用 1T 參數 MoE 架構、32B activated parameters、256K context [7]。但提供資料未有足夠直接對齊 GPT-5.5、Claude Opus 4.7 同 DeepSeek V4 的 benchmark 數字,因此唔適合放入同一張「四強排行榜」[7]

一眼睇晒

模型最有力嘅已知證據關鍵數字實際點理解
GPT-5.5Artificial Analysis 可見片段排最前 [2]Intelligence Index:60 xhigh、59 high [2];BrowseComp:84.4%,GPT-5.5 Pro:90.1% [3];Terminal-Bench 2.0:82.7% [22][24]最穩陣嘅全能起點,但唔代表每個項目都贏
Claude Opus 4.7SWE-Bench、GPQA、部分 agentic/金融任務表現強 [20][22][24]Intelligence Index:57 [2];SWE-Bench Pro:64.3% [22][24];SWE-Bench Verified:87.6% [20];GPQA Diamond:94.2% [8][22]如果重點係軟件工程、review、知識推理,值得優先測
DeepSeek V4BrowseComp 幾乎貼住 GPT-5.5 [3]BrowseComp:83.4% [3];API:US$1.74 input/US$3.48 output,每 100 萬 tokens [1]當成本同網頁研究能力好重要時,性價比最搶眼
Kimi K2.6被描述為開源、多模態、agentic、長 context 模型 [7]1T 參數 MoE、32B activated parameters、256K context [7]技術上值得試,但現有資料不足以公平量化排名

點解唔可以當「跑分聯賽榜」?

最大問題係資料來源唔完全一致。DataCamp 在相關 frontier model 比較中提醒,benchmark 數字有時係 vendor-reported,即由供應商自己公布;而且不同測試可能用不同 harness configuration,即測試框架同設定未必一樣 [21]。呢點對 AI benchmark 好關鍵:同一個模型,一改推理強度、工具設定、context 用法,分數可以有明顯變化。

模型版本亦唔完全一樣。Artificial Analysis 提到 GPT-5.5 xhigh、GPT-5.5 high,以及 Claude Opus 4.7 的 Adaptive Reasoning/Max Effort 設定 [2];VentureBeat 講 DeepSeek 時則涉及 DeepSeek-V4-Pro-Max [3]。換言之,呢啲數字更似「不同參賽版本嘅截圖」,而唔係四個模型用同一套規則跑完嘅終局排名。

所以更實際嘅問題唔係「邊個永遠第一」,而係:你要做嘅 workload 係寫 code、查資料、長任務代理、金融分析,定係低成本批量處理?

總體能力:GPT-5.5 暫時最有全局領先證據

在可引用的 Artificial Analysis Intelligence Index 片段中,GPT-5.5 xhigh 以 60 分排第一,GPT-5.5 high 以 59 分排第二,Claude Opus 4.7 Adaptive Reasoning/Max Effort 以 57 分排第三 [2]

呢個片段支持一個溫和但清楚嘅結論:在該 index 入面,GPT-5.5 領先 Claude Opus 4.7 [2]。但同一組可見資料未提供 DeepSeek V4 同 Kimi K2.6 足夠完整、可直接引用的 index 數字,所以唔應該用呢個片段硬做四模型總排名 [2][7]

BrowseComp:DeepSeek V4 追得最貼

BrowseComp 可以粗略理解為同網頁瀏覽、查找資料相關的 benchmark。呢項係目前最清楚見到 GPT-5.5、Claude Opus 4.7 同 DeepSeek V4 三者同場的數字。VentureBeat 列出:GPT-5.5 Pro 90.1%、GPT-5.5 84.4%、DeepSeek V4 83.4%、Claude Opus 4.7 79.3% [3]

模型或版本BrowseComp 分數點睇
GPT-5.5 Pro90.1%呢個片段入面明顯最高 [3]
GPT-5.584.4%僅僅高過 DeepSeek V4 [3]
DeepSeek V483.4%只落後 GPT-5.5 1.0 個百分點 [3]
Claude Opus 4.779.3%落後於 GPT-5.5 同 DeepSeek V4 [3]
Kimi K2.6未見直接可比數字暫時唔公平排位 [7]

不過,VentureBeat 亦指出,DeepSeek-V4-Pro-Max 雖然接近頂尖,但在可直接比較的 benchmark 上,未算整體推翻 GPT-5.5 或 Claude Opus 4.7 [3]。所以 BrowseComp 的合理解讀係:DeepSeek V4 在網頁研究類任務非常有競爭力,但單靠一個強項未足以判定總冠軍 [3]

Coding:Claude 贏 SWE,GPT 贏 Terminal

如果你揀模型係為咗寫 code、修 bug、跑開發工具,就更加唔應該只睇總分。現有數字顯示,Claude Opus 4.7 在 SWE-Bench Pro 領先,但 GPT-5.5 在 Terminal-Bench 2.0 明顯領先 [22][24]

BenchmarkGPT-5.5Claude Opus 4.7結論
SWE-Bench Pro58.6%64.3%Claude 領先 [22][24]
SWE-Bench Verified未見可直接引用 GPT-5.5 數字87.6%Claude 數字強,但唔係四模型完整比較 [20]
Terminal-Bench 2.082.7%69.4%GPT-5.5 明顯領先 [22][24]

簡單講:如果你最在意 real-world software engineering benchmark,Claude Opus 4.7 的證據好強;如果你需要模型處理 terminal、工具執行、電腦操作式任務,GPT-5.5 的數字更突出 [20][22][24]

至於 DeepSeek V4 同 Kimi K2.6,提供資料未有足夠同場、同格式 coding 數字,唔適宜同上表一樣逐項排 [3][7]。VentureBeat 形容 DeepSeek V4 在多個可比較 benchmark 上接近頂尖,但其可見片段最清楚的直接數字仍是 BrowseComp [3]。Kimi K2.6 方面,DocsBot 提供較多是架構同能力描述,而非完整對齊三個對手的 benchmark 表 [7]

推理、知識同專業任務:領先者會按題型轉

在高難度知識同推理測試,GPT-5.5 同 Claude Opus 4.7 好接近,甚至會因為有冇工具而調轉勝負。GPQA Diamond 方面,GPT-5.5 是 93.6%,Claude Opus 4.7 是 94.2% [8][22]。Humanity’s Last Exam 不用工具時,GPT-5.5 以 40.6% 高過 Claude 的 31.2%;但加工具後,Claude 以 54.7% 略高於 GPT-5.5 的 52.2% [8]

BenchmarkGPT-5.5Claude Opus 4.7目前數字領先者
GPQA Diamond93.6%94.2%Claude 小勝 [8][22]
Humanity’s Last Exam40.6%31.2%GPT-5.5 [8]
Humanity’s Last Exam with tools52.2%54.7%Claude 小勝 [8]

專業同 agentic benchmark 亦係互有勝負。Vellum 列出 GPT-5.5 在 GDPval 得 84.9%,高過 Claude Opus 4.7 的 80.3%;OSWorld-Verified 是 78.7% 對 78.0%;但 MCP Atlas 則是 Claude 79.1% 高過 GPT-5.5 的 75.3% [22]。OpenAI 列出的 FinanceAgent v1.1 亦是 Claude Opus 4.7 64.4% 高過 GPT-5.5 60.0% [24]

BenchmarkGPT-5.5Claude Opus 4.7結論
GDPval84.9%80.3%GPT-5.5 領先 [22][24]
OSWorld-Verified78.7%78.0%GPT-5.5 微領先 [22]
MCP Atlas75.3%79.1%Claude 領先 [22]
FinanceAgent v1.160.0%64.4%Claude 領先 [24]

Anthropic 另外引用內部 research-agent benchmark,指 Claude Opus 4.7 在 6 個模組中並列最高 overall score 0.715,並在 General Finance 模組得 0.813,高過 Opus 4.6 的 0.767 [6]。不過呢個係 Anthropic 內部 benchmark,而且未有同時覆蓋四個模型,所以更適合作為 Claude agentic 能力的輔助證據,而唔係獨立四強排名 [6]

價格同 context:DeepSeek V4 最搶鏡

真正落地用模型,成本往往同 benchmark 一樣重要。token 可以理解為模型處理文字/資料的基本計費單位;context window 則係模型一次過可參考的內容容量。

Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬 input tokens US$1.74、每 100 萬 output tokens US$3.48,context window 為 100 萬 tokens [1]。同一來源列出 GPT-5.5 為每 100 萬 input tokens US$5、output tokens US$30;Claude Opus 4.7 則為 US$5/US$25,兩者同樣標示 100 萬 tokens context window [1]

模型每 100 萬 input tokens每 100 萬 output tokens來源列出的 context
DeepSeek V4US$1.74US$3.48100 萬 tokens [1]
GPT-5.5US$5US$30100 萬 tokens [1]
Claude Opus 4.7US$5US$25100 萬 tokens [1]
Kimi K2.6未見可直接比較價格未見可直接比較價格256K tokens [7]

Kimi K2.6 在呢部分屬於另一種情況。DocsBot 指它有 256K context、1T 參數 MoE 架構、32B activated parameters,並支援多達 300 個 sub-agents、4,000 個 coordinated steps 的 agent swarm 任務編排 [7]。呢啲是重要技術規格,但仍然不能取代直接、同場、同設定的 benchmark 同價格比較 [7]

如果要揀模型,可以咁諗

你最重視…可優先試原因
最強已證明綜合表現GPT-5.5Artificial Analysis 可見片段領先,BrowseComp 亦高過 Claude Opus 4.7 並略高於 DeepSeek V4 [2][3]
SWE-Bench 導向軟件工程Claude Opus 4.7SWE-Bench Pro 高過 GPT-5.5,SWE-Bench Verified 亦有 87.6% [20][22][24]
Terminal、工具執行、電腦操作式任務GPT-5.5Terminal-Bench 2.0 明顯高過 Claude,GDPval 同 OSWorld-Verified 亦領先 [22][24]
網頁研究+低 API 成本DeepSeek V4BrowseComp 83.4%,而引用價格明顯低過 GPT-5.5 同 Claude Opus 4.7 [1][3]
試開源、多模態、agentic 長任務模型Kimi K2.6DocsBot 形容它是 open-source、原生多模態、agentic,具 256K context;但 benchmark 對齊仍不足 [7]

底線

今次比較最重要嘅結論係:冇一個模型可以用現有資料證明「全面通殺」。 GPT-5.5 係目前最有證據支持的全能領先者,因為它在 Artificial Analysis 片段排最前,BrowseComp 同多個專業 benchmark 亦表現強 [2][3][22][24]

Claude Opus 4.7 仍然係頂級模型,尤其在 SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond,以及部分 agentic/金融任務有明確優勢 [20][22][24]。DeepSeek V4 最大賣點係性價比:BrowseComp 幾乎追到 GPT-5.5,同時引用 API 價格低好多 [1][3]。至於 Kimi K2.6,應該視為值得測試的技術選項,而唔係在現有資料下硬排第幾;要公平比較,仍需要更多直接、同設定的 benchmark 同價格數字 [7]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • GPT 5.5 是目前證據最完整的 all rounder:Artificial Analysis 片段中 xhigh 版本得 60 分,BrowseComp 得 84.4% [2][3]。
  • Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 高過 GPT 5.5 的 58.6%,GPQA Diamond 亦以 94.2% 略高於 GPT 5.5 的 93.6%;但 GPT 5.5 在 Terminal Bench 2.0 以 82.7% 明顯高過 Claude 的 69.4% [8][22][24]。
  • DeepSeek V4 的亮點是性價比:BrowseComp 83.4%,只比 GPT 5.5 低 1.0 個百分點,API 價格亦明顯較低;Kimi K2.6 則因直接可比跑分不足,暫時不宜硬排 [1][3][7]。

人們還問

「GPT-5.5 對 Claude Opus 4.7、DeepSeek V4、Kimi K2.6:Benchmark 邊個真係領先?」的簡短答案是什麼?

GPT 5.5 是目前證據最完整的 all rounder:Artificial Analysis 片段中 xhigh 版本得 60 分,BrowseComp 得 84.4% [2][3]。

首先要驗證的關鍵點是什麼?

GPT 5.5 是目前證據最完整的 all rounder:Artificial Analysis 片段中 xhigh 版本得 60 分,BrowseComp 得 84.4% [2][3]。 Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 高過 GPT 5.5 的 58.6%,GPQA Diamond 亦以 94.2% 略高於 GPT 5.5 的 93.6%;但 GPT 5.5 在 Terminal Bench 2.0 以 82.7% 明顯高過 Claude 的 69.4% [8][22][24]。

接下來在實務上我該做什麼?

DeepSeek V4 的亮點是性價比:BrowseComp 83.4%,只比 GPT 5.5 低 1.0 個百分點,API 價格亦明顯較低;Kimi K2.6 則因直接可比跑分不足,暫時不宜硬排 [1][3][7]。

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 來源

引用的答案

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

來源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...