下表中的「—」不是說模型做不到該任務,而是指在本文採用的公開來源中,找不到可直接放在同一列對照的數字。
OpenAI表示,GPT-5.5在Terminal-Bench 2.0取得82.7%,在SWE-Bench Pro取得58.6% 。OpenAI也說明,Terminal-Bench 2.0評估的是需要規劃、反覆操作與工具協調的複雜命令列工作流;SWE-Bench Pro則評估真實GitHub issue的解決能力
。
因此,如果你的產品場景包含沙盒執行、反覆下shell指令、重現CI(持續整合)錯誤、建立與修改檔案,GPT-5.5值得優先試跑。只是它並非所有程式工作都領先:在SWE-Bench Pro上,Claude Opus 4.7的64.3%高於GPT-5.5的58.6% 。
Claude Opus 4.7公開資料列出SWE-Bench Pro 64.3%、SWE-Bench Verified 87.6% 。DataCamp整理稱,Opus 4.7曾在14項基準上評估,涵蓋編碼、推理、工具使用、電腦操作與視覺推理
。
與GPT-5.5的共通比較中,Claude Opus 4.7在GPQA Diamond以94.2%對93.6%略高,也在MCP Atlas以79.1%對75.3%領先 。反過來,Terminal-Bench 2.0與BrowseComp的公開分數則由GPT-5.5領先
。
換句話說,Claude Opus 4.7不宜被簡化成「所有代理工作都贏」,但若任務是修補既有程式、處理真實issue、做程式碼審查與重構,它很適合作為第一批測試模型。
Kimi K2.6被列出SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%;另一份指南也列出Terminal-Bench 2.0 66.7%、HLE with tools 54.0% 。不過,該指南說明K2.6數字來自Moonshot AI官方模型卡,且SWE-Bench Pro附有Moonshot in-house harness的說明
。
所以,即使Kimi K2.6的SWE-Bench Pro 58.6%在數字上與GPT-5.5相同,也不應直接斷定兩者在完全相同評測框架下打成平手 。它更清楚的賣點,是支援文字、圖片與影片輸入,並提供256k上下文路由;若你的產品要處理很長的多模態材料,Kimi K2.6值得單獨實測
。
在本文採用的公開來源中,DeepSeek V4缺少可直接填入Terminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond等共通欄位的數字。相對可引用的是Artificial Analysis的資料:DeepSeek V4 Pro Max在AA-Omniscience得分為-10,較V3.2改善11分;V4 Flash Max為-23 。同一來源也回報,V4 Pro與V4 Flash的幻覺率分別為94%與96%,並解讀為模型在不知道答案時幾乎仍會回答
。
但從架構與成本看,DeepSeek V4仍有評估價值。DataCamp指出DeepSeek V4採Mixture of Experts(MoE,專家混合)架構;Pro模型總參數1.6兆、啟用參數490億,Flash模型總參數2840億、啟用參數130億 。Mashable整理的API價格也顯示,DeepSeek V4低於GPT-5.5與Claude Opus 4.7
。
第一,四個模型並沒有在同一組提示、同一套工具權限、同一推理預算、同一評分器下完成完整獨立對照。GPT-5.5與Claude Opus 4.7的共同比較資料較多;Kimi K2.6混合模型卡與in-house harness數字;DeepSeek V4則在多個共通基準欄位缺資料 。
第二,同名基準測試也可能因執行條件不同而改變分數。一份整理指出,GPT-5.5與Claude Opus 4.7的公開分數可以在形式上比較,但方法論不必然完全一致 。Anthropic也說明其Terminal-Bench 2.0評測使用Terminus-2 harness,並指定資源配置條件
。
第三,基準分數只是產品品質的一部分。真正導入時,還要看錯誤模式、幻覺率、延遲、成本、工具呼叫穩定性、安全政策與日誌可重現性。ExplainX也提醒,排行榜定義、提示與工具政策都可能讓分數變動,不能用公開基準取代自己的評測框架 。
Comments
0 comments