| 程式、綜合排行榜、金融文件分析、視覺數學推理 |
| Anthropic 的 research-agent benchmark 0.715 是內部評測,不能直接拿來和 GPT-5.5 的 GDPval 等外部指標互比 |
| GPT-5.5 | BenchLM 89/100、暫定榜 112 款模型第 5;GDPval 84.9%;OSWorld-Verified 78.7%;Tau2-bench Telecom 98.0%;Vals Accuracy 67.76% ± 1.79 | 知識工作、電腦操作、客服工作流、代理型任務 | OpenAI 官方數據、BenchLM 與 Vals Index 是不同評測體系,不能視為同一把尺 |
| DeepSeek V4 / V4-Pro-Max | Vals AI 列為 2026 年 4 月 23 日項目;V4-Pro-Max 在 MMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% | 科學問答、數學、高難度推理候選 | DataCamp 說明這些數字基於 DeepSeek 內部結果,應與獨立第三方榜單分開解讀 |
若只看 BenchLM 已公開的三款模型,Claude Opus 4.7 的分數最高。BenchLM 把 Claude Opus 4.7 列為暫定排行榜 110 款模型中的第 2 名,overall score 為 97/100;在 verified leaderboard 中,也列為 14 款模型中的第 2 名 。
GPT-5.5 在 BenchLM 的暫定排行榜中是 112 款模型第 5 名,overall score 89/100;verified leaderboard 則是 16 款模型第 2 名 。Kimi 2.6 的 BenchLM 暫定排行榜成績為 85/100,在 115 款模型中排第 12,且頁面顯示有 27 個公開基準分數
。
但這裡不能直接得出「Claude 全面第一」的結論。各頁面比較的模型數量不同,Claude 是 110 款、GPT-5.5 是 112 款、Kimi 是 115 款;而在目前提供的資料中,也沒有 DeepSeek V4 對等的 BenchLM 分數可一起比較 。所以 BenchLM 更適合當作參考座標,而不是最終判決。
在程式評測中,Claude Opus 4.7 的公開數字最清楚。MindStudio 指出,Claude Opus 4.7 在 SWE-bench Verified 達到 82.4%,約比 Opus 4.6 高 11 分 。同一份資料也列出 Claude Opus 4.7 的 FinanceBench 為 82.7%,並指出 MathVista 提升 9.5 分,顯示其在金融文件分析與視覺數學推理上也有明確進步
。
GPT-5.5 的官方介紹重點則不在 SWE-bench,而是 GDPval、OSWorld-Verified 與 Tau2-bench Telecom 等工作流與代理型評測 。Kimi K2.6 方面,GMI Cloud 資料提到它在 SWE-Bench Pro 表現突出,但提供的片段不足以確認精確分數,也不足以把四款模型放在相同條件下比較
。DeepSeek V4 在這批資料中,較具體的數字集中於推理、科學問答與數學,而不是程式基準
。
如果關注的是「模型能不能完成一連串工作」,GPT-5.5 的公開官方數據相對完整。OpenAI 表示,GPT-5.5 在 GDPval 得分 84.9%;GDPval 測試的是模型在 44 種職業中產出規格明確的知識工作成果的能力 。OpenAI 也列出 GPT-5.5 在 OSWorld-Verified 達到 78.7%,這項評測關注模型能否自行操作真實電腦環境;在測試複雜客服流程的 Tau2-bench Telecom 中,GPT-5.5 在未經 prompt tuning 的情況下達到 98.0%
。
Claude Opus 4.7 也有代理型工作資料。Anthropic 表示,在其內部 research-agent benchmark 中,Claude Opus 4.7 在 6 個模組的整體分數為 0.715,並列最高;在 General Finance 模組中,Opus 4.7 得分 0.813,高於 Opus 4.6 的 0.767 。
不過,GPT-5.5 的 GDPval、OSWorld-Verified、Tau2-bench 與 Anthropic 的內部 research-agent benchmark 不是同一套評分機制 。GPT-5.5 的 84.9% 和 Claude 的 0.715 看起來都很強,但不應把它們當成同一尺度上的分數。
DeepSeek V4 的具體公開數字,多出現在 V4-Pro-Max 設定。DataCamp 引述 DeepSeek 內部結果指出,DeepSeek V4-Pro-Max 在 MMLU-Pro 得分 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% 。這些數字可作為觀察 DeepSeek 推理能力的線索,但因為來源明確提到是內部結果,解讀時應和獨立排行榜區分
。
| 基準測試 | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 表內較高者 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
這張表顯示,DeepSeek V4-Pro-Max 在 MMLU-Pro、SimpleQA-Verified、Chinese-SimpleQA、HLE 上高於 Kimi K2.6 Thinking;Kimi K2.6 Thinking 則在 GPQA Diamond 上以很小差距領先 。但同一張表中的其他對照對象是 Opus-4.6 Max、GPT-5.4 xHigh 等,並不是本文討論的 Claude Opus 4.7 與 GPT-5.5,因此不足以推出四款模型的完整總排名
。
Vals AI 的資料中,GPT-5.5 顯示為 Accuracy 67.76% ± 1.79、Latency 409.09s、Context Window 1M 。Kimi K2.6 則顯示為 Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21
。如果只比較這兩筆 Vals 記錄,GPT-5.5 的準確率標示值較高,Kimi K2.6 的延遲標示值較低,且有每次測試成本資料
。
Kimi K2.6 對重視開放權重的團隊也有意義。Artificial Analysis 稱 Moonshot 的 Kimi K2.6 是 leading open weights model,並給出 Artificial Analysis Intelligence Index 54、排名第 4 的結果 。但同樣要注意,Artificial Analysis、Vals、BenchLM 是不同評測體系;Kimi 的 54 分、Vals Accuracy 63.94%、BenchLM 85/100 不能合併成一個總分
。
把公開資料放在一起看,Claude Opus 4.7 在程式與 BenchLM 綜合排行榜上的證據最強;GPT-5.5 在知識工作、電腦操作與代理型工作流上有較完整的官方指標;DeepSeek V4-Pro-Max 在推理、科學問答與數學相關數字上值得關注;Kimi K2.6 則在開放權重、成本與延遲指標上較有特色 。
但若要嚴格排出第一名到第四名,目前公開資料仍不夠整齊。最安全的做法,是把這些基準測試當作篩選起點,再用自己的任務重跑一輪:例如程式修復、金融文件分析、瀏覽器或電腦控制、客服流程、長時間代理執行。模型不是只在榜單上工作,而是在你的資料、你的流程、你的成本限制裡工作 。
Comments
0 comments