比較呢四個模型,第一步唔係問「邊個最高分」,而係問「邊啲數係官方,邊啲係第三方」。GPT-5.5 方面,OpenAI 自己公布咗 Terminal-Bench 2.0 同 SWE-Bench Pro 數字;DeepSeek V4 方面,官方 changelog 主要證明 V4-Pro、V4-Flash 已可透過 API 使用 [24][
25]。至於 Claude Opus 4.7 同 Kimi K2.6,今次可用嘅直接比較,多數來自第三方分析,要打個折扣睇 [
4][
6]。
先講結論:按用途揀,唔好搵「總冠軍」
- **Coding 同 GitHub issue 修復:**按已引用嘅 SWE-Bench、SWE-Bench Verified、CursorBench 數據,Claude Opus 4.7 較 GPT-5.5 有優勢 [
4]。
- **Terminal agent/computer use:**GPT-5.5 最有官方數據支持,包括 OpenAI 公布 Terminal-Bench 2.0 82.7% [
24]。
- **想慳 token 成本嘅 coding agent:**CodeRouter 將 Kimi K2.6 形容為成本/質素勝出者,價錢係每 100 萬 tokens 輸入 US$0.60、輸出 US$4.00 [
6]。
- **DeepSeek V4:**DeepSeek 官方確認 V4-Pro、V4-Flash 已支援 API,但今次來源未見官方四方 benchmark 矩陣 [
25]。
呢批來源其實支持到啲咩?
OpenAI 將 Terminal-Bench 2.0 描述為測試複雜 command-line workflows,需要規劃、反覆嘗試同工具協調;GPT-5.5 喺呢個測試達到 82.7% [24]。SWE-Bench Pro 就係評估模型處理真實 GitHub issue 嘅能力,OpenAI 報 GPT-5.5 成績為 58.6% [
24]。
DeepSeek 文檔就寫明,V4-Pro 同 V4-Flash 可經 OpenAI ChatCompletions interface 以及 Anthropic interface 使用;model 參數分別係 deepseek-v4-pro 同 deepseek-v4-flash [25]。呢點證明可用性,但唔等於證明 benchmark 贏咗邊個。
Claude Opus 4.7 同 Kimi K2.6 嘅直接比較要更小心:LushBinary 提供 Claude 對 GPT-5.5 嘅多項數字,CodeRouter 則提供 Kimi K2.6 同 DeepSeek V4 嘅價格及定位資料 [4][
6]。
有根據嘅比較表
「未有足夠資料」即係:今次提供嘅來源入面,未見到足夠可靠、可直接對照嘅同一 benchmark 數字。
| Benchmark/指標 | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 未有足夠資料 | CodeRouter 指與 GPT-5.5 同級 [ | 64.3% [ | 58.6% [ |
| SWE-Bench Verified | 未有足夠資料 | 未有足夠資料 | 87.6% [ | 約 85% [ |
| Terminal-Bench 2.0 | 未有足夠資料 | 未有足夠資料 | 約 72% [ | 82.7% [ |
| GDPval/Knowledge Work | 未有足夠資料 | 未有足夠資料 | 約 78% [ | 84.9% [ |
| OSWorld-Verified/Computer Use | 未有足夠資料 | 未有足夠資料 | 約 65% [ | 78.7% [ |
| GPQA Diamond | 未有足夠資料 | 未有足夠資料 | 94.2% [ | 約 93% [ |
| CursorBench | 未有足夠資料 | 未有足夠資料 | 70% [ | 約 65% [ |
| Tau2-bench Telecom | 未有足夠資料 | 未有足夠資料 | 約 90% [ | 98.0% [ |
| Vision & Document Arena | 未有足夠資料 | 未有足夠資料 | Arena 報告指第 1 位 [ | 未有足夠資料 |
| 價格/context | V4 Flash:輸入 US$0.14/輸出 US$0.28(每 100 萬 tokens),1M context [ | 輸入 US$0.60/輸出 US$4.00(每 100 萬 tokens)[ | 未有足夠資料 | 未有足夠資料 |
Coding:Claude Opus 4.7 暫時睇落最強,Kimi K2.6 係性價比候選
如果你最關心係修 bug、改 repo、處理 GitHub issue,已引用數字最有利於 Claude Opus 4.7。LushBinary 指 Claude Opus 4.7 喺 SWE-Bench Pro 有 64.3%,高過 GPT-5.5 嘅 58.6%;而 GPT-5.5 呢個 58.6% 亦由 OpenAI 官方自己公布 [4][
24]。同一個第三方來源亦指 Claude Opus 4.7 喺 SWE-Bench Verified 同 CursorBench 領先 GPT-5.5 [
4]。
不過 Kimi K2.6 唔可以忽略。CodeRouter 將佢喺 SWE-Bench Pro 定位為同 GPT-5.5 同級,同時列出明顯較低嘅 token 價格 [6]。呢個唔等於你可以唔做自家 eval,但如果你要跑大量 agent、draft 或 retry,成本訊號相當重要。
至於 DeepSeek V4,今次官方資料只足以確認 V4-Pro、V4-Flash 已經喺 API 可用,未能由官方資料推出 coding benchmark 勝負 [25]。
Terminal agent 同 computer use:GPT-5.5 證據最硬
如果你做嘅係 shell command、工具協調、log 分析、反覆試錯呢類 agentic workflow,GPT-5.5 係今次最有公開硬數支持嘅起點。OpenAI 指 GPT-5.5 喺 Terminal-Bench 2.0 達到 82.7%,而該 benchmark 測試複雜 command-line workflows,包括規劃、迭代同工具協調 [24]。LushBinary 則將 Claude Opus 4.7 喺同一 benchmark 估於約 72% [
4]。
同一第三方來源亦較支持 GPT-5.5:GDPval/Knowledge Work 為 84.9% 對 Claude 約 78%,OSWorld-Verified/Computer Use 為 78.7% 對 Claude 約 65% [4]。所以,若任務接近 terminal、tool orchestration 或 GUI 操作,GPT-5.5 係較有根據嘅首選測試對象。
Vision 同文件:Claude Opus 4.7 有最清楚正面訊號
Vision/文件理解方面,今次來源未足夠砌出完整四方表。最明確嘅正面訊號係 Claude Opus 4.7:Latent Space/AINews 引用嘅 Arena 報告指,Claude Opus 4.7 喺 Vision & Document Arena 排第 1 [1]。
LLM Stats 亦報道,Claude Opus 4.7 可處理長邊最高 2,576 pixels、約 3.75 megapixels 嘅圖片;GPT-5.5 支援 image input,並列出 MMMU-Pro 81.2%(無工具)同 83.2%(有工具)[5]。呢啲資料有助比較 Claude 同 GPT-5.5,但仍然唔係 Kimi K2.6、DeepSeek V4、Claude、GPT-5.5 四者嘅直接完整對戰。
價格表現:Kimi K2.6 同 DeepSeek V4 Flash 值得放入自己測試
如果你要跑大量 coding agent,token bill 會好快放大。今次最清楚嘅價格論點係 Kimi K2.6:CodeRouter 將佢形容為成本/質素勝出者,並列出每 100 萬 tokens 輸入 US$0.60、輸出 US$4.00 [6]。
DeepSeek V4 Flash 喺同一來源被列為非常便宜嘅 workhorse 選項:每 100 萬 tokens 輸入 US$0.14、輸出 US$0.28,並有 1M context [6]。DeepSeek 官方文檔亦確認 V4-Pro 同 V4-Flash 已可透過現有 API interface 使用 [
25]。
但平唔等於 benchmark 第一。真正要計嘅係:每個「可接受結果」成本幾多、錯誤要唔要人手補鑊、retry 幾多次、延遲係咪可接受。
點樣公平測試呢四個模型?
唔好淨係睇 leaderboard。最好由你自己嘅真實任務抽一小批 eval:例如公司 codebase 入面嘅 bug fix、實際文件問答、terminal agent workflow、或者需要工具協調嘅任務。每個模型用同一批 prompt、同一套工具、同一個時間限制,再量度以下幾樣:
- 第一次答案是否可用;
- retry 次數;
- 每個可接受結果成本;
- 錯誤嚴重程度;
- runtime/latency;
- 人手 review 或修正成本。
同時要分清楚數據級別。GPT-5.5 今次有 OpenAI 官方 Terminal-Bench 2.0 同 SWE-Bench Pro 數字 [24];DeepSeek V4 有官方 API 可用性證明 [
25];Claude Opus 4.7 同 Kimi K2.6 嘅最強直接比較,今次主要來自第三方來源 [
4][
6]。
總結
呢場比較冇一個放諸四海皆準嘅冠軍。Claude Opus 4.7 喺引用嘅 coding 相關數據較突出;GPT-5.5 喺 terminal、agentic workflow、computer use 方面有最硬證據;Kimi K2.6 有最清楚嘅性價比敘事;DeepSeek V4 則係已可用嘅 API 候選,應該放入你自己嘅 eval 跑一輪先決定 [4][
24][
6][
25]。




