Claude Opus 4.7 唔應該只用一個百分比概括。Anthropic 喺模型文件入面形容佢係目前一般可用模型之中,最擅長複雜推理同 agentic coding,即「代理式編程」嘅型號 [1]。AWS 介紹 Claude Opus 4.7 登陸 Amazon Bedrock 時,亦將佢定位為 Opus 4.6 之上嘅升級,重點放喺生產環境常見 workflow:agentic coding、知識工作、視覺理解同長時間任務 [
7]。
對開發者嚟講,最易被引用嘅 headline 數字係 SWE-bench Verified 87.6%。呢個分數由 AWS 引述 Anthropic 資料列出 [7]。不過,睇 benchmark 最忌「見到高分就當萬能」:AWS 同時提醒,Opus 4.7 可能需要修改 prompt 同調整評測 harness,先可以盡量發揮模型能力 [
7]。
主要 benchmark 數字一覽
| 範疇 | Benchmark | 報告分數 | 最適合用嚟睇咩 |
|---|---|---|---|
| Coding/代理 | SWE-bench Verified | 87.6% | 目前最常被引用、用嚟評估 Claude Opus 4.7 解軟件工程任務能力嘅指標 [ |
| Coding/代理 | SWE-bench Pro | 64.3% | 可配合 SWE-bench Verified 一齊睇,反映較高要求或不同類型嘅軟件任務 [ |
| 終端機代理 | Terminal-Bench 2.0 | 69.4% | 如果應用場景涉及 terminal、工具調用或類似命令行環境,呢個分數更有參考價值 [ |
| 金融代理 | Finance Agent v1.1 | 64.4% | 較貼近金融分析、自動化或文件處理相關流程 [ |
| 內部 coding 測試 | 93 項任務內部 benchmark | 相比 Opus 4.6,解決率 +13% | 呢係特定內部評測嘅相對改善,唔應理解成所有項目都必然提升 13% [ |
| 內部 research agent 測試 | 總分 | 0.715 | Anthropic 指呢個係其內部 research-agent benchmark 入面,對 multi-step 工作表現強嘅結果 [ |
| 內部 research agent 測試 | General Finance | 0.813,Opus 4.6 為 0.767 | 顯示 Opus 4.7 喺 Anthropic 內部金融模組相對 Opus 4.6 有改善 [ |
87.6% SWE-bench Verified 真正代表咩?
如果你係工程團隊,想比較邊個模型適合做 coding agent,SWE-bench Verified 87.6% 係現有資料入面最清晰、最有代表性嘅起點:AWS 為 Claude Opus 4.7 列出呢個分數 [7]。簡單講,呢個 benchmark 主要反映模型處理軟件工程任務、理解代碼問題同提出修復方案嘅能力;亦同 Anthropic 對 Opus 4.7「強於複雜推理同 agentic coding」嘅定位一致 [
1]。
但要留意,87.6% 唔係「所有工作都做到 87.6% 成功率」嘅意思。SWE-bench Verified 只係某一類任務嘅評測;佢唔能夠取代 terminal 操作、金融分析、視覺理解、長流程任務或 research agent 評測。做技術選型時,最好至少將 SWE-bench Pro 同 Terminal-Bench 2.0 一齊睇,先知道模型喺更貼近實際工具鏈嘅情境下表現如何 [6][
7]。
點解會見到唔同數字?
同一個模型,網上未必只得一個 benchmark 數字。有二手來源報告 Claude Opus 4.7 喺 SWE-bench Verified 係 82.4%,但 AWS 引述 Anthropic 資料列出嘅係 87.6% [2][
7]。呢個差距唔細,所以引用時唔應該只講「Opus 4.7 幾多分」,而要講清楚:邊個 benchmark、幾多分、邊個來源。
更重要係,AWS 明確提到 Opus 4.7 可能需要 prompting changes 同 harness tweaks,先可以攞到更好效果 [7]。換句話講,評測設定、工具環境、prompt 寫法同自動化框架,都可能影響你實際見到嘅分數。
應該睇邊個 benchmark?視乎你點用
如果主要用途係寫 code、修 bug、做軟件工程任務,SWE-bench Verified 可以做第一個參考點,但唔好停喺呢度。SWE-bench Pro 同 Terminal-Bench 2.0 更有助理解模型處理複雜任務、操作工具同喺 terminal 類環境入面工作嘅能力 [6][
7]。
如果用途偏向金融或 research workflow,Anthropic 內部 research-agent 數據會更貼近呢類場景:Opus 4.7 喺其內部 research-agent benchmark 總分為 0.715;喺 General Finance 模組取得 0.813,而 Opus 4.6 同一模組為 0.767 [8]。不過,呢啲仍然係內部評測,唔等於第三方獨立驗證。
如果你關心嘅係企業長流程工作,例如跨多步驟分析、長時間任務、處理模糊指令,公開資料顯示 AWS 引述 Anthropic 指 Opus 4.7 喺長時間任務、指令跟隨同處理模糊情境方面有改善 [7]。呢類情況下,benchmark 只係初步篩選;真正決定應唔應該採用,仍然要用你自己嘅工具、prompt、資料同 harness 重跑一次。
結論:87.6% 好重要,但要放返喺正確位置
Claude Opus 4.7 最有代表性、最容易引用嘅 benchmark 係 SWE-bench Verified 87.6%,特別適合用嚟討論 agentic coding 能力 [7]。但完整解讀需要同時睇其他數字:SWE-bench Pro 64.3%、Terminal-Bench 2.0 69.4%、Finance Agent v1.1 64.4%,再加上 Anthropic 對 multi-step research 同金融模組嘅內部評測結果 [
7][
8]。
最穩陣嘅比較方法唔係問「Claude Opus 4.7 benchmark 幾多分?」而係問:「邊個 benchmark 最似我哋實際 workflow?」如果係軟件開發,SWE-bench Verified 係好起點;如果係代理工具、terminal、金融或 research,其他 benchmark 可能同樣重要,甚至更貼近你真正要解決嘅問題。




