studioglobal
熱門探索內容
答案已發布6 個來源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5:誰贏哪些基準測試?

目前沒有乾淨的四方總冠軍:GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%;Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。 若重點是 GitHub issue 修復與 Coding benchmark,引用數據較偏向 Claude Opus 4.7;若是終端機代理、工具協調與電腦操作,GPT 5.5 是公開證據最完整的起點 [4][24]。

18K0
Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5
DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo

openai.com

比較這四個模型,最容易犯的錯不是看錯數字,而是把不同等級的資料混在一起。GPT-5.5 有 OpenAI 官方公布的 Terminal-Bench 2.0 與 SWE-Bench Pro 成績;DeepSeek 官方更新紀錄主要證明 V4-Pro、V4-Flash 已可透過 API 使用 [24][25]。至於 Claude Opus 4.7 與 Kimi K2.6,本文採用的直接對照多來自第三方整理,解讀時應和官方數據分開看 [4][6]

先看結論:沒有一個模型通吃所有場景

  • 程式碼修復與 GitHub issue 類任務: 在引用的 SWE-Bench、SWE-Bench Verified 與 CursorBench 數據中,Claude Opus 4.7 看起來比 GPT-5.5 更強 [4]
  • 終端機代理與 Computer Use: GPT-5.5 的證據最扎實。OpenAI 官方稱它在 Terminal-Bench 2.0 達到 82.7% [24]
  • 重視成本的 Coding agent: Kimi K2.6 被 CodeRouter 描述為成本/品質勝出者,價格為每 100 萬 tokens $0.60 input、$4.00 output [6]
  • DeepSeek V4: V4-Pro 與 V4-Flash 已由 DeepSeek 官方列為 API 可用,但在本文使用的來源中,尚沒有一張官方四方基準測試矩陣能直接對上 Kimi K2.6、Claude Opus 4.7 與 GPT-5.5 [25]

目前資料能說什麼,不能說什麼

OpenAI 將 Terminal-Bench 2.0 描述為測試複雜命令列工作流程的基準,重點包括規劃、反覆迭代與工具協調;GPT-5.5 在此達到 82.7% [24]。在 SWE-Bench Pro,也就是用真實 GitHub issue 解決能力來評估的基準上,OpenAI 給出的 GPT-5.5 成績是 58.6% [24]

DeepSeek 官方文件則指出,DeepSeek API 已支援 V4-ProV4-Flash,可透過 OpenAI ChatCompletions 介面與 Anthropic 介面使用,模型參數分別是 deepseek-v4-prodeepseek-v4-flash [25]。這能證明可用性,但不能直接證明它在四方比較中勝出。

Claude Opus 4.7 與 Kimi K2.6 的直接比較要更謹慎:LushBinary 提供 Claude 與 GPT-5.5 的多項對照數字;CodeRouter 則提供 Kimi K2.6 與 DeepSeek V4 的價格、定位與部分能力敘述 [4][6]

已有數字怎麼排?先看這張表

下表的「無可比資料」意思是:在本文使用的來源中,沒有足夠可靠、可直接比較的模型—基準測試數字。

基準測試/條件DeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-Bench Pro無可比資料CodeRouter 稱約與 GPT-5.5 同級 [6]64.3% [4]58.6% [24]
SWE-Bench Verified無可比資料無可比資料87.6% [4]約 85% [4]
Terminal-Bench 2.0無可比資料無可比資料約 72% [4]82.7% [24]
GDPval/Knowledge Work無可比資料無可比資料約 78% [4]84.9% [4]
OSWorld-Verified/Computer Use無可比資料無可比資料約 65% [4]78.7% [4]
GPQA Diamond無可比資料無可比資料94.2% [4]約 93% [4]
CursorBench無可比資料無可比資料70% [4]約 65% [4]
Tau2-bench Telecom無可比資料無可比資料約 90% [4]98.0% [4]
Vision & Document Arena無可比資料無可比資料Arena 報告稱第 1 名 [1]無可比資料
價格/context 提示V4 Flash:$0.14 input/$0.28 output,每 100 萬 tokens;1M context [6]$0.60 input/$4.00 output,每 100 萬 tokens [6]無可比資料無可比資料

Coding:Claude Opus 4.7 的公開對照最有優勢

如果你的首要任務是修 bug、改大型程式庫、解 GitHub issue,引用數據最支持 Claude Opus 4.7。LushBinary 給出 Claude Opus 4.7 在 SWE-Bench Pro 的 64.3%,高於 GPT-5.5;OpenAI 也自行確認 GPT-5.5 在 SWE-Bench Pro 是 58.6% [4][24]。在 SWE-Bench Verified 與 CursorBench,Claude Opus 4.7 同樣在這份第三方資料中領先 GPT-5.5 [4]

Kimi K2.6 仍值得注意,原因不是它有完整官方四方表,而是 CodeRouter 把它放在 SWE-Bench Pro 約與 GPT-5.5 同級的位置,同時列出更低的 token 價格 [6]。對需要大量 agent 嘗試、反覆生成草稿或跑多輪 retry 的團隊來說,這類成本訊號很有參考價值。

至於 DeepSeek V4,本文所用的官方 DeepSeek 資料沒有提供可直接放進 Coding benchmark 表的成績;能確定的是 V4-Pro 與 V4-Flash 已經在 API 中可用 [25]

終端機代理與工具協調:GPT-5.5 證據最完整

若任務涉及 shell 指令、檔案操作、工具串接與多步驟自動化,GPT-5.5 是目前公開證據最清楚的選項。OpenAI 官方公布 GPT-5.5 在 Terminal-Bench 2.0 達到 82.7%,並稱該基準測試複雜命令列工作流程中的規劃、迭代與工具協調 [24]。LushBinary 則將 Claude Opus 4.7 在同一基準中的成績列為約 72% [4]

在知識工作與電腦操作相關指標上,引用的第三方資料也偏向 GPT-5.5:GDPval 為 84.9%,高於 Claude Opus 4.7 的約 78%;OSWorld-Verified 為 78.7%,高於 Claude Opus 4.7 的約 65% [4]。因此,若工作流接近終端機代理、GUI 操作或多工具編排,GPT-5.5 是較有數據支撐的起跑點。

視覺與文件:Claude Opus 4.7 有最明確的正面訊號

視覺與文件任務目前沒有完整四方表。最明確的訊號來自 Claude Opus 4.7:Latent Space/AINews 引述的 Arena 報告稱,Claude Opus 4.7 在 Vision & Document Arena 排名第 1 [1]

LLM Stats 另稱 Claude Opus 4.7 可處理長邊最高 2,576 像素、約 3.75MP 的影像;同文也列出 GPT-5.5 支援影像輸入,並給出 MMMU-Pro 81.2%(不用工具)與 83.2%(使用工具)的數字 [5]。這些資料有助於理解 Claude 與 GPT-5.5 的多模態定位,但仍不能取代 DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5 的同場四方測試。

價格與大量任務:Kimi K2.6、DeepSeek V4 Flash 都該進入自測清單

若把預算納入考量,Kimi K2.6 的價格敘事最鮮明。CodeRouter 把 Kimi K2.6 稱為成本/品質勝出者,並列出每 100 萬 tokens $0.60 input、$4.00 output 的價格 [6]

DeepSeek V4 Flash 則在同一來源中被列為便宜的 workhorse 選項:每 100 萬 tokens $0.14 input、$0.28 output,並標示 1M context [6]。DeepSeek 官方文件也確認,V4-Pro 與 V4-Flash 已可透過目前 API 介面使用 [25]

但便宜不等於基準測試第一。對生產環境而言,真正該算的是「每個可接受成果的成本」:包含成功率、重試次數、錯誤嚴重度、人工修補成本與延遲,而不只是 input/output token 單價。

想公平比較四個模型,應該這樣測

公開榜單適合拿來縮小候選清單,但不適合直接決定採購或上線。比較這四個模型時,最好用你自己的程式庫、文件、客服流程或 agent 任務建立一小組內部 eval。不要只看第一輪回答,也要記錄成功率、平均成本、重試次數、執行時間、失敗型態,以及錯誤是否會造成高風險後果。

更重要的是,把資料來源分層:GPT-5.5 在這次比較中有 OpenAI 官方的 Terminal-Bench 2.0 與 SWE-Bench Pro 數字 [24];DeepSeek V4 有官方 API 可用性證明 [25];Claude Opus 4.7 與 Kimi K2.6 的強力對照,則主要來自第三方資料 [4][6]。這三種證據不能一視同仁。

總結

這場比較沒有萬用冠軍。Claude Opus 4.7 在引用的 Coding 相關數據中最突出;GPT-5.5 在終端機代理、工具協調與電腦操作 benchmark 上證據最完整;Kimi K2.6 的優勢在成本/品質敘事;DeepSeek V4 則是已可透過 API 使用、但仍需要用自家任務重新量測的候選模型 [4][24][6][25]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • 目前沒有乾淨的四方總冠軍:GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%;Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。
  • 若重點是 GitHub issue 修復與 Coding benchmark,引用數據較偏向 Claude Opus 4.7;若是終端機代理、工具協調與電腦操作,GPT 5.5 是公開證據最完整的起點 [4][24]。
  • Kimi K2.6 被 CodeRouter 描述為成本/品質候選,每 100 萬 tokens 為 $0.60 input、$4.00 output;DeepSeek V4 Pro 與 V4 Flash 則已在 DeepSeek API 官方文件中列為可用 [6][25]。

大家也會問

「DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5:誰贏哪些基準測試?」的簡短答案是什麼?

目前沒有乾淨的四方總冠軍:GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%;Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。

最值得優先驗證的重點是什麼?

目前沒有乾淨的四方總冠軍:GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%;Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。 若重點是 GitHub issue 修復與 Coding benchmark,引用數據較偏向 Claude Opus 4.7;若是終端機代理、工具協調與電腦操作,GPT 5.5 是公開證據最完整的起點 [4][24]。

接下來在實務上該怎麼做?

Kimi K2.6 被 CodeRouter 描述為成本/品質候選,每 100 萬 tokens 為 $0.60 input、$4.00 output;DeepSeek V4 Pro 與 V4 Flash 則已在 DeepSeek API 官方文件中列為可用 [6][25]。

下一步適合探索哪個相關主題?

繼續閱讀「Claude Security 公測版:Anthropic 的企業程式碼漏洞掃描工具」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「Grok 4.3 API 解讀:1M 上下文、低 token 價格,xAI 想搶下哪個入口?」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI26 個來源

附引用的答案

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen [4][6].

Benchmark / KriteriumDeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-bench ProInsufficient evidencelaut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil [6]64.3% [4]58.6% [4]
SWE-bench VerifiedInsufficient evidenceInsufficient evidence87.6% [4]ca. 85% [4]
Terminal-Bench 2.0Insufficient evidenceInsufficient evidenceca. 72% [4]82.7% [4]
GDPval / Knowledge WorkInsufficient evidenceInsufficient evidenceca. 78% [4]84.9% [4]
OSWorld-Verified / Computer UseInsufficient evidenceInsufficient evidenceca. 65% [4]78.7% [4]
Vision / Document ArenaInsufficient evidenceInsufficient evidencelaut Arena-Bericht Platz 1 in Vision & Document Arena [1]Insufficient evidence
Preis-LeistungInsufficient evidenceals starker Kosten-/Qualitäts-Kandidat beschrieben [6]teuer/stark, aber nicht als Kostenführer beschrieben [6]stark, aber nicht Kostenführer laut Vergleich [6]
  • Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 [4].

  • Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 [4].

  • Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben [1].

  • Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen [6][8].

  • DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich [6].

  • Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen [4][6].

來源

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com

    Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...

  • [6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io

    TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [25] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...