比較這四個模型,最容易犯的錯不是看錯數字,而是把不同等級的資料混在一起。GPT-5.5 有 OpenAI 官方公布的 Terminal-Bench 2.0 與 SWE-Bench Pro 成績;DeepSeek 官方更新紀錄主要證明 V4-Pro、V4-Flash 已可透過 API 使用 [24][
25]。至於 Claude Opus 4.7 與 Kimi K2.6,本文採用的直接對照多來自第三方整理,解讀時應和官方數據分開看 [
4][
6]。
先看結論:沒有一個模型通吃所有場景
- 程式碼修復與 GitHub issue 類任務: 在引用的 SWE-Bench、SWE-Bench Verified 與 CursorBench 數據中,Claude Opus 4.7 看起來比 GPT-5.5 更強 [
4]。
- 終端機代理與 Computer Use: GPT-5.5 的證據最扎實。OpenAI 官方稱它在 Terminal-Bench 2.0 達到 82.7% [
24]。
- 重視成本的 Coding agent: Kimi K2.6 被 CodeRouter 描述為成本/品質勝出者,價格為每 100 萬 tokens $0.60 input、$4.00 output [
6]。
- DeepSeek V4: V4-Pro 與 V4-Flash 已由 DeepSeek 官方列為 API 可用,但在本文使用的來源中,尚沒有一張官方四方基準測試矩陣能直接對上 Kimi K2.6、Claude Opus 4.7 與 GPT-5.5 [
25]。
目前資料能說什麼,不能說什麼
OpenAI 將 Terminal-Bench 2.0 描述為測試複雜命令列工作流程的基準,重點包括規劃、反覆迭代與工具協調;GPT-5.5 在此達到 82.7% [24]。在 SWE-Bench Pro,也就是用真實 GitHub issue 解決能力來評估的基準上,OpenAI 給出的 GPT-5.5 成績是 58.6% [
24]。
DeepSeek 官方文件則指出,DeepSeek API 已支援 V4-Pro 與 V4-Flash,可透過 OpenAI ChatCompletions 介面與 Anthropic 介面使用,模型參數分別是 deepseek-v4-pro 與 deepseek-v4-flash [25]。這能證明可用性,但不能直接證明它在四方比較中勝出。
Claude Opus 4.7 與 Kimi K2.6 的直接比較要更謹慎:LushBinary 提供 Claude 與 GPT-5.5 的多項對照數字;CodeRouter 則提供 Kimi K2.6 與 DeepSeek V4 的價格、定位與部分能力敘述 [4][
6]。
已有數字怎麼排?先看這張表
下表的「無可比資料」意思是:在本文使用的來源中,沒有足夠可靠、可直接比較的模型—基準測試數字。
| 基準測試/條件 | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 無可比資料 | CodeRouter 稱約與 GPT-5.5 同級 [ | 64.3% [ | 58.6% [ |
| SWE-Bench Verified | 無可比資料 | 無可比資料 | 87.6% [ | 約 85% [ |
| Terminal-Bench 2.0 | 無可比資料 | 無可比資料 | 約 72% [ | 82.7% [ |
| GDPval/Knowledge Work | 無可比資料 | 無可比資料 | 約 78% [ | 84.9% [ |
| OSWorld-Verified/Computer Use | 無可比資料 | 無可比資料 | 約 65% [ | 78.7% [ |
| GPQA Diamond | 無可比資料 | 無可比資料 | 94.2% [ | 約 93% [ |
| CursorBench | 無可比資料 | 無可比資料 | 70% [ | 約 65% [ |
| Tau2-bench Telecom | 無可比資料 | 無可比資料 | 約 90% [ | 98.0% [ |
| Vision & Document Arena | 無可比資料 | 無可比資料 | Arena 報告稱第 1 名 [ | 無可比資料 |
| 價格/context 提示 | V4 Flash:$0.14 input/$0.28 output,每 100 萬 tokens;1M context [ | $0.60 input/$4.00 output,每 100 萬 tokens [ | 無可比資料 | 無可比資料 |
Coding:Claude Opus 4.7 的公開對照最有優勢
如果你的首要任務是修 bug、改大型程式庫、解 GitHub issue,引用數據最支持 Claude Opus 4.7。LushBinary 給出 Claude Opus 4.7 在 SWE-Bench Pro 的 64.3%,高於 GPT-5.5;OpenAI 也自行確認 GPT-5.5 在 SWE-Bench Pro 是 58.6% [4][
24]。在 SWE-Bench Verified 與 CursorBench,Claude Opus 4.7 同樣在這份第三方資料中領先 GPT-5.5 [
4]。
Kimi K2.6 仍值得注意,原因不是它有完整官方四方表,而是 CodeRouter 把它放在 SWE-Bench Pro 約與 GPT-5.5 同級的位置,同時列出更低的 token 價格 [6]。對需要大量 agent 嘗試、反覆生成草稿或跑多輪 retry 的團隊來說,這類成本訊號很有參考價值。
至於 DeepSeek V4,本文所用的官方 DeepSeek 資料沒有提供可直接放進 Coding benchmark 表的成績;能確定的是 V4-Pro 與 V4-Flash 已經在 API 中可用 [25]。
終端機代理與工具協調:GPT-5.5 證據最完整
若任務涉及 shell 指令、檔案操作、工具串接與多步驟自動化,GPT-5.5 是目前公開證據最清楚的選項。OpenAI 官方公布 GPT-5.5 在 Terminal-Bench 2.0 達到 82.7%,並稱該基準測試複雜命令列工作流程中的規劃、迭代與工具協調 [24]。LushBinary 則將 Claude Opus 4.7 在同一基準中的成績列為約 72% [
4]。
在知識工作與電腦操作相關指標上,引用的第三方資料也偏向 GPT-5.5:GDPval 為 84.9%,高於 Claude Opus 4.7 的約 78%;OSWorld-Verified 為 78.7%,高於 Claude Opus 4.7 的約 65% [4]。因此,若工作流接近終端機代理、GUI 操作或多工具編排,GPT-5.5 是較有數據支撐的起跑點。
視覺與文件:Claude Opus 4.7 有最明確的正面訊號
視覺與文件任務目前沒有完整四方表。最明確的訊號來自 Claude Opus 4.7:Latent Space/AINews 引述的 Arena 報告稱,Claude Opus 4.7 在 Vision & Document Arena 排名第 1 [1]。
LLM Stats 另稱 Claude Opus 4.7 可處理長邊最高 2,576 像素、約 3.75MP 的影像;同文也列出 GPT-5.5 支援影像輸入,並給出 MMMU-Pro 81.2%(不用工具)與 83.2%(使用工具)的數字 [5]。這些資料有助於理解 Claude 與 GPT-5.5 的多模態定位,但仍不能取代 DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5 的同場四方測試。
價格與大量任務:Kimi K2.6、DeepSeek V4 Flash 都該進入自測清單
若把預算納入考量,Kimi K2.6 的價格敘事最鮮明。CodeRouter 把 Kimi K2.6 稱為成本/品質勝出者,並列出每 100 萬 tokens $0.60 input、$4.00 output 的價格 [6]。
DeepSeek V4 Flash 則在同一來源中被列為便宜的 workhorse 選項:每 100 萬 tokens $0.14 input、$0.28 output,並標示 1M context [6]。DeepSeek 官方文件也確認,V4-Pro 與 V4-Flash 已可透過目前 API 介面使用 [
25]。
但便宜不等於基準測試第一。對生產環境而言,真正該算的是「每個可接受成果的成本」:包含成功率、重試次數、錯誤嚴重度、人工修補成本與延遲,而不只是 input/output token 單價。
想公平比較四個模型,應該這樣測
公開榜單適合拿來縮小候選清單,但不適合直接決定採購或上線。比較這四個模型時,最好用你自己的程式庫、文件、客服流程或 agent 任務建立一小組內部 eval。不要只看第一輪回答,也要記錄成功率、平均成本、重試次數、執行時間、失敗型態,以及錯誤是否會造成高風險後果。
更重要的是,把資料來源分層:GPT-5.5 在這次比較中有 OpenAI 官方的 Terminal-Bench 2.0 與 SWE-Bench Pro 數字 [24];DeepSeek V4 有官方 API 可用性證明 [
25];Claude Opus 4.7 與 Kimi K2.6 的強力對照,則主要來自第三方資料 [
4][
6]。這三種證據不能一視同仁。
總結
這場比較沒有萬用冠軍。Claude Opus 4.7 在引用的 Coding 相關數據中最突出;GPT-5.5 在終端機代理、工具協調與電腦操作 benchmark 上證據最完整;Kimi K2.6 的優勢在成本/品質敘事;DeepSeek V4 則是已可透過 API 使用、但仍需要用自家任務重新量測的候選模型 [4][
24][
6][
25]。




