答案已發布2026年4月28日Last edited 2026年5月6日6 個來源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：誰贏哪些基準測試？

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。若重點是 GitHub issue 修復與 Coding benchmark，引用數據較偏向 Claude Opus 4.7；若是終端機代理、工具協調與電腦操作，GPT 5.5 是公開證據最完整的起點 [4][24]。

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5 — DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo
openai.com

比較這四個模型，最容易犯的錯不是看錯數字，而是把不同等級的資料混在一起。GPT-5.5 有 OpenAI 官方公布的 Terminal-Bench 2.0 與 SWE-Bench Pro 成績；DeepSeek 官方更新紀錄主要證明 V4-Pro、V4-Flash 已可透過 API 使用 ^[24]^[25]。至於 Claude Opus 4.7 與 Kimi K2.6，本文採用的直接對照多來自第三方整理，解讀時應和官方數據分開看 ^[4]^[6]。

先看結論：沒有一個模型通吃所有場景

程式碼修復與 GitHub issue 類任務： 在引用的 SWE-Bench、SWE-Bench Verified 與 CursorBench 數據中，Claude Opus 4.7 看起來比 GPT-5.5 更強 ^[4]。
終端機代理與 Computer Use： GPT-5.5 的證據最扎實。OpenAI 官方稱它在 Terminal-Bench 2.0 達到 82.7% ^[24]。
重視成本的 Coding agent： Kimi K2.6 被 CodeRouter 描述為成本／品質勝出者，價格為每 100 萬 tokens $0.60 input、$4.00 output ^[6]。
DeepSeek V4： V4-Pro 與 V4-Flash 已由 DeepSeek 官方列為 API 可用，但在本文使用的來源中，尚沒有一張官方四方基準測試矩陣能直接對上 Kimi K2.6、Claude Opus 4.7 與 GPT-5.5 ^[25]。

目前資料能說什麼，不能說什麼

OpenAI 將 Terminal-Bench 2.0 描述為測試複雜命令列工作流程的基準，重點包括規劃、反覆迭代與工具協調；GPT-5.5 在此達到 82.7% ^[24]。在 SWE-Bench Pro，也就是用真實 GitHub issue 解決能力來評估的基準上，OpenAI 給出的 GPT-5.5 成績是 58.6% ^[24]。

DeepSeek 官方文件則指出，DeepSeek API 已支援 V4-Pro 與 V4-Flash，可透過 OpenAI ChatCompletions 介面與 Anthropic 介面使用，模型參數分別是 deepseek-v4-pro 與 deepseek-v4-flash ^[25]。這能證明可用性，但不能直接證明它在四方比較中勝出。

Claude Opus 4.7 與 Kimi K2.6 的直接比較要更謹慎：LushBinary 提供 Claude 與 GPT-5.5 的多項對照數字；CodeRouter 則提供 Kimi K2.6 與 DeepSeek V4 的價格、定位與部分能力敘述 ^[4]^[6]。

已有數字怎麼排？先看這張表

下表的「無可比資料」意思是：在本文使用的來源中，沒有足夠可靠、可直接比較的模型—基準測試數字。

基準測試／條件	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	無可比資料	CodeRouter 稱約與 GPT-5.5 同級 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	無可比資料	無可比資料	87.6% ^[4]	約 85% ^[4]
Terminal-Bench 2.0	無可比資料	無可比資料	約 72% ^[4]	82.7% ^[24]
GDPval／Knowledge Work	無可比資料	無可比資料	約 78% ^[4]	84.9% ^[4]
OSWorld-Verified／Computer Use	無可比資料	無可比資料	約 65% ^[4]	78.7% ^[4]
GPQA Diamond	無可比資料	無可比資料	94.2% ^[4]	約 93% ^[4]
CursorBench	無可比資料	無可比資料	70% ^[4]	約 65% ^[4]
Tau2-bench Telecom	無可比資料	無可比資料	約 90% ^[4]	98.0% ^[4]
Vision & Document Arena	無可比資料	無可比資料	Arena 報告稱第 1 名 ^[1]	無可比資料
價格／context 提示	V4 Flash：$0.14 input／$0.28 output，每 100 萬 tokens；1M context ^[6]	$0.60 input／$4.00 output，每 100 萬 tokens ^[6]	無可比資料	無可比資料

Coding：Claude Opus 4.7 的公開對照最有優勢

如果你的首要任務是修 bug、改大型程式庫、解 GitHub issue，引用數據最支持 Claude Opus 4.7。LushBinary 給出 Claude Opus 4.7 在 SWE-Bench Pro 的 64.3%，高於 GPT-5.5；OpenAI 也自行確認 GPT-5.5 在 SWE-Bench Pro 是 58.6% ^[4]^[24]。在 SWE-Bench Verified 與 CursorBench，Claude Opus 4.7 同樣在這份第三方資料中領先 GPT-5.5 ^[4]。

Kimi K2.6 仍值得注意，原因不是它有完整官方四方表，而是 CodeRouter 把它放在 SWE-Bench Pro 約與 GPT-5.5 同級的位置，同時列出更低的 token 價格 ^[6]。對需要大量 agent 嘗試、反覆生成草稿或跑多輪 retry 的團隊來說，這類成本訊號很有參考價值。

至於 DeepSeek V4，本文所用的官方 DeepSeek 資料沒有提供可直接放進 Coding benchmark 表的成績；能確定的是 V4-Pro 與 V4-Flash 已經在 API 中可用 ^[25]。

終端機代理與工具協調：GPT-5.5 證據最完整

若任務涉及 shell 指令、檔案操作、工具串接與多步驟自動化，GPT-5.5 是目前公開證據最清楚的選項。OpenAI 官方公布 GPT-5.5 在 Terminal-Bench 2.0 達到 82.7%，並稱該基準測試複雜命令列工作流程中的規劃、迭代與工具協調 ^[24]。LushBinary 則將 Claude Opus 4.7 在同一基準中的成績列為約 72% ^[4]。

在知識工作與電腦操作相關指標上，引用的第三方資料也偏向 GPT-5.5：GDPval 為 84.9%，高於 Claude Opus 4.7 的約 78%；OSWorld-Verified 為 78.7%，高於 Claude Opus 4.7 的約 65% ^[4]。因此，若工作流接近終端機代理、GUI 操作或多工具編排，GPT-5.5 是較有數據支撐的起跑點。

視覺與文件：Claude Opus 4.7 有最明確的正面訊號

視覺與文件任務目前沒有完整四方表。最明確的訊號來自 Claude Opus 4.7：Latent Space／AINews 引述的 Arena 報告稱，Claude Opus 4.7 在 Vision & Document Arena 排名第 1 ^[1]。

LLM Stats 另稱 Claude Opus 4.7 可處理長邊最高 2,576 像素、約 3.75MP 的影像；同文也列出 GPT-5.5 支援影像輸入，並給出 MMMU-Pro 81.2%（不用工具）與 83.2%（使用工具）的數字 ^[5]。這些資料有助於理解 Claude 與 GPT-5.5 的多模態定位，但仍不能取代 DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5 的同場四方測試。

價格與大量任務：Kimi K2.6、DeepSeek V4 Flash 都該進入自測清單

若把預算納入考量，Kimi K2.6 的價格敘事最鮮明。CodeRouter 把 Kimi K2.6 稱為成本／品質勝出者，並列出每 100 萬 tokens $0.60 input、$4.00 output 的價格 ^[6]。

DeepSeek V4 Flash 則在同一來源中被列為便宜的 workhorse 選項：每 100 萬 tokens $0.14 input、$0.28 output，並標示 1M context ^[6]。DeepSeek 官方文件也確認，V4-Pro 與 V4-Flash 已可透過目前 API 介面使用 ^[25]。

但便宜不等於基準測試第一。對生產環境而言，真正該算的是「每個可接受成果的成本」：包含成功率、重試次數、錯誤嚴重度、人工修補成本與延遲，而不只是 input／output token 單價。

想公平比較四個模型，應該這樣測

公開榜單適合拿來縮小候選清單，但不適合直接決定採購或上線。比較這四個模型時，最好用你自己的程式庫、文件、客服流程或 agent 任務建立一小組內部 eval。不要只看第一輪回答，也要記錄成功率、平均成本、重試次數、執行時間、失敗型態，以及錯誤是否會造成高風險後果。

更重要的是，把資料來源分層：GPT-5.5 在這次比較中有 OpenAI 官方的 Terminal-Bench 2.0 與 SWE-Bench Pro 數字 ^[24]；DeepSeek V4 有官方 API 可用性證明 ^[25]；Claude Opus 4.7 與 Kimi K2.6 的強力對照，則主要來自第三方資料 ^[4]^[6]。這三種證據不能一視同仁。

總結

這場比較沒有萬用冠軍。Claude Opus 4.7 在引用的 Coding 相關數據中最突出；GPT-5.5 在終端機代理、工具協調與電腦操作 benchmark 上證據最完整；Kimi K2.6 的優勢在成本／品質敘事；DeepSeek V4 則是已可透過 API 使用、但仍需要用自家任務重新量測的候選模型 ^[4]^[24]^[6]^[25]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。
若重點是 GitHub issue 修復與 Coding benchmark，引用數據較偏向 Claude Opus 4.7；若是終端機代理、工具協調與電腦操作，GPT 5.5 是公開證據最完整的起點 [4][24]。
Kimi K2.6 被 CodeRouter 描述為成本／品質候選，每 100 萬 tokens 為 $0.60 input、$4.00 output；DeepSeek V4 Pro 與 V4 Flash 則已在 DeepSeek API 官方文件中列為可用 [6][25]。

大家也會問

「DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：誰贏哪些基準測試？」的簡短答案是什麼？

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Kimi K2.6 被 CodeRouter 描述為成本／品質候選，每 100 萬 tokens 為 $0.60 input、$4.00 output；DeepSeek V4 Pro 與 V4 Flash 則已在 DeepSeek API 官方文件中列為可用 [6][25]。

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年4月25日

研究問題

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026年4月25日26 個來源

附引用的答案

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen ^[4]^[6].

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

來源

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

熱門探索內容

答案已發布2026年4月28日Last edited 2026年5月6日6 個來源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：誰贏哪些基準測試？

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

先看結論：沒有一個模型通吃所有場景

程式碼修復與 GitHub issue 類任務： 在引用的 SWE-Bench、SWE-Bench Verified 與 CursorBench 數據中，Claude Opus 4.7 看起來比 GPT-5.5 更強 ^[4]。
終端機代理與 Computer Use： GPT-5.5 的證據最扎實。OpenAI 官方稱它在 Terminal-Bench 2.0 達到 82.7% ^[24]。
重視成本的 Coding agent： Kimi K2.6 被 CodeRouter 描述為成本／品質勝出者，價格為每 100 萬 tokens $0.60 input、$4.00 output ^[6]。
DeepSeek V4： V4-Pro 與 V4-Flash 已由 DeepSeek 官方列為 API 可用，但在本文使用的來源中，尚沒有一張官方四方基準測試矩陣能直接對上 Kimi K2.6、Claude Opus 4.7 與 GPT-5.5 ^[25]。

目前資料能說什麼，不能說什麼

已有數字怎麼排？先看這張表

下表的「無可比資料」意思是：在本文使用的來源中，沒有足夠可靠、可直接比較的模型—基準測試數字。

基準測試／條件	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	無可比資料	CodeRouter 稱約與 GPT-5.5 同級 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	無可比資料	無可比資料	87.6% ^[4]	約 85% ^[4]
Terminal-Bench 2.0	無可比資料	無可比資料	約 72% ^[4]	82.7% ^[24]
GDPval／Knowledge Work	無可比資料	無可比資料	約 78% ^[4]	84.9% ^[4]
OSWorld-Verified／Computer Use	無可比資料	無可比資料	約 65% ^[4]	78.7% ^[4]
GPQA Diamond	無可比資料	無可比資料	94.2% ^[4]	約 93% ^[4]
CursorBench	無可比資料	無可比資料	70% ^[4]	約 65% ^[4]
Tau2-bench Telecom	無可比資料	無可比資料	約 90% ^[4]	98.0% ^[4]
Vision & Document Arena	無可比資料	無可比資料	Arena 報告稱第 1 名 ^[1]	無可比資料
價格／context 提示	V4 Flash：$0.14 input／$0.28 output，每 100 萬 tokens；1M context ^[6]	$0.60 input／$4.00 output，每 100 萬 tokens ^[6]	無可比資料	無可比資料

Coding：Claude Opus 4.7 的公開對照最有優勢

至於 DeepSeek V4，本文所用的官方 DeepSeek 資料沒有提供可直接放進 Coding benchmark 表的成績；能確定的是 V4-Pro 與 V4-Flash 已經在 API 中可用 ^[25]。

終端機代理與工具協調：GPT-5.5 證據最完整

視覺與文件：Claude Opus 4.7 有最明確的正面訊號

價格與大量任務：Kimi K2.6、DeepSeek V4 Flash 都該進入自測清單

若把預算納入考量，Kimi K2.6 的價格敘事最鮮明。CodeRouter 把 Kimi K2.6 稱為成本／品質勝出者，並列出每 100 萬 tokens $0.60 input、$4.00 output 的價格 ^[6]。

想公平比較四個模型，應該這樣測

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。
若重點是 GitHub issue 修復與 Coding benchmark，引用數據較偏向 Claude Opus 4.7；若是終端機代理、工具協調與電腦操作，GPT 5.5 是公開證據最完整的起點 [4][24]。
Kimi K2.6 被 CodeRouter 描述為成本／品質候選，每 100 萬 tokens 為 $0.60 input、$4.00 output；DeepSeek V4 Pro 與 V4 Flash 則已在 DeepSeek API 官方文件中列為可用 [6][25]。

大家也會問

「DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：誰贏哪些基準測試？」的簡短答案是什麼？

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

研究對話

你2026年4月25日

研究問題

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026年4月25日26 個來源

附引用的答案

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

來源

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

熱門探索內容

答案已發布2026年4月28日Last edited 2026年5月6日6 個來源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：誰贏哪些基準測試？

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

先看結論：沒有一個模型通吃所有場景

程式碼修復與 GitHub issue 類任務： 在引用的 SWE-Bench、SWE-Bench Verified 與 CursorBench 數據中，Claude Opus 4.7 看起來比 GPT-5.5 更強 ^[4]。
終端機代理與 Computer Use： GPT-5.5 的證據最扎實。OpenAI 官方稱它在 Terminal-Bench 2.0 達到 82.7% ^[24]。
重視成本的 Coding agent： Kimi K2.6 被 CodeRouter 描述為成本／品質勝出者，價格為每 100 萬 tokens $0.60 input、$4.00 output ^[6]。
DeepSeek V4： V4-Pro 與 V4-Flash 已由 DeepSeek 官方列為 API 可用，但在本文使用的來源中，尚沒有一張官方四方基準測試矩陣能直接對上 Kimi K2.6、Claude Opus 4.7 與 GPT-5.5 ^[25]。

目前資料能說什麼，不能說什麼

已有數字怎麼排？先看這張表

下表的「無可比資料」意思是：在本文使用的來源中，沒有足夠可靠、可直接比較的模型—基準測試數字。

基準測試／條件	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	無可比資料	CodeRouter 稱約與 GPT-5.5 同級 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	無可比資料	無可比資料	87.6% ^[4]	約 85% ^[4]
Terminal-Bench 2.0	無可比資料	無可比資料	約 72% ^[4]	82.7% ^[24]
GDPval／Knowledge Work	無可比資料	無可比資料	約 78% ^[4]	84.9% ^[4]
OSWorld-Verified／Computer Use	無可比資料	無可比資料	約 65% ^[4]	78.7% ^[4]
GPQA Diamond	無可比資料	無可比資料	94.2% ^[4]	約 93% ^[4]
CursorBench	無可比資料	無可比資料	70% ^[4]	約 65% ^[4]
Tau2-bench Telecom	無可比資料	無可比資料	約 90% ^[4]	98.0% ^[4]
Vision & Document Arena	無可比資料	無可比資料	Arena 報告稱第 1 名 ^[1]	無可比資料
價格／context 提示	V4 Flash：$0.14 input／$0.28 output，每 100 萬 tokens；1M context ^[6]	$0.60 input／$4.00 output，每 100 萬 tokens ^[6]	無可比資料	無可比資料

Coding：Claude Opus 4.7 的公開對照最有優勢

至於 DeepSeek V4，本文所用的官方 DeepSeek 資料沒有提供可直接放進 Coding benchmark 表的成績；能確定的是 V4-Pro 與 V4-Flash 已經在 API 中可用 ^[25]。

終端機代理與工具協調：GPT-5.5 證據最完整

視覺與文件：Claude Opus 4.7 有最明確的正面訊號

價格與大量任務：Kimi K2.6、DeepSeek V4 Flash 都該進入自測清單

若把預算納入考量，Kimi K2.6 的價格敘事最鮮明。CodeRouter 把 Kimi K2.6 稱為成本／品質勝出者，並列出每 100 萬 tokens $0.60 input、$4.00 output 的價格 ^[6]。

想公平比較四個模型，應該這樣測

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。
若重點是 GitHub issue 修復與 Coding benchmark，引用數據較偏向 Claude Opus 4.7；若是終端機代理、工具協調與電腦操作，GPT 5.5 是公開證據最完整的起點 [4][24]。
Kimi K2.6 被 CodeRouter 描述為成本／品質候選，每 100 萬 tokens 為 $0.60 input、$4.00 output；DeepSeek V4 Pro 與 V4 Flash 則已在 DeepSeek API 官方文件中列為可用 [6][25]。

大家也會問

「DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：誰贏哪些基準測試？」的簡短答案是什麼？

目前沒有乾淨的四方總冠軍：GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%；Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

你2026年4月25日

研究問題

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026年4月25日26 個來源

附引用的答案

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

來源

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...