Claude Opus 4.7 不能只用一個百分比下結論。比較準確的讀法是:它是一款面向複雜推理、代理式編碼(agentic coding)與長流程工作的模型。Anthropic 在模型文件中稱它是其「正式可用」模型裡最擅長複雜推理與代理式編碼的版本 [1];AWS 則把它描述為 Opus 4.6 的升級,改善範圍涵蓋代理式編碼、知識工作、視覺理解與長時間任務 [
7]。
對工程團隊來說,最醒目的數字是 SWE-bench Verified 87.6%。這個分數由 AWS 在介紹 Claude Opus 4.7 於 Amazon Bedrock 上架時列出 [7]。它很值得注意,但不應被讀成「模型在所有任務上都有 87.6% 的成功率」。更實用的做法,是把它放回不同 benchmark 的脈絡中看。
重點分數一覽
| 使用情境 | Benchmark | 已報告結果 | 較適合觀察什麼 |
|---|---|---|---|
| 編碼與代理 | SWE-bench Verified | 87.6% | 評估 Claude Opus 4.7 解決軟體任務時最常被引用的主分數 [ |
| 編碼與代理 | SWE-bench Pro | 64.3% | 補充觀察更高難度或不同型態的軟體任務 [ |
| 終端機代理 | Terminal-Bench 2.0 | 69.4% | 適合看模型在類終端機環境、工具操作或命令流程中的能力 [ |
| 金融代理 | Finance Agent v1.1 | 64.4% | 較接近金融分析或金融自動化代理流程 [ |
| 內部編碼評測 | 93 項任務內部 benchmark | 相較 Opus 4.6,解決率提升 13% | 代表特定評測下的相對提升,不等於每個程式碼庫都會等幅改善 [ |
| 內部研究代理 | 總分 | 0.715 | Anthropic 將其視為多步驟工作上的強勁內部評測結果 [ |
| 內部研究代理 | General Finance | 0.813;Opus 4.6 為 0.767 | 顯示在 Anthropic 內部金融模組中較 Opus 4.6 進步 [ |
87.6% 到底該怎麼讀?
如果你要比較的是 coding agent 或軟體工程代理,SWE-bench Verified 的 87.6% 確實是目前最容易引用、也最醒目的數字之一 [7]。它與 Anthropic 對 Opus 4.7 的定位相符:這是一個強調複雜推理與代理式編碼的模型 [
1]。
但 benchmark 不是萬靈丹。SWE-bench Verified 主要反映特定軟體任務上的解題能力;它不能替代終端機代理、金融代理、長上下文研究、視覺理解或企業知識工作等其他場景的測試。因此,若是技術選型,至少應把 SWE-bench Pro 與 Terminal-Bench 2.0 一起納入,而不是只看單一標題分數 [6][
7][
8]。
為什麼會看到不同的 SWE-bench Verified 數字?
同一個模型在網路上未必只會出現一個分數。舉例來說,有次級來源列出 Claude Opus 4.7 在 SWE-bench Verified 的成績為 82.4%,而 AWS 報告的是 87.6% [2][
7]。這種差異提醒我們:引用 benchmark 時,不能只複製百分比,還要說清楚來源與設定。
較穩妥的寫法是同時標明三件事:benchmark 名稱、分數、資料來源。AWS 也提醒,Opus 4.7 作為 Opus 4.6 的升級,可能需要調整提示詞與評測 harness 才能充分發揮 [7]。換句話說,測試設定本身可能影響你看到的結果。
不同團隊該看哪一組 benchmark?
如果你關心程式開發,SWE-bench Verified 可以當作起點,但不該是終點。SWE-bench Pro 與 Terminal-Bench 2.0 能補上更接近「模型需要與工具、環境或命令流程互動」的面向 [6][
7]。
如果你關心金融或研究型工作,Anthropic 的內部 research-agent benchmark 會更貼近這類多步驟流程:Claude Opus 4.7 的總分為 0.715,在 General Finance 模組得 0.813,高於 Opus 4.6 的 0.767 [8]。不過,這些仍是內部評測;在採購或導入前,最好用自己的資料、任務與驗收標準再跑一次。
如果你關心企業長流程,AWS 引述 Anthropic 的說法指出,Opus 4.7 改善了長時間任務、知識工作、視覺理解與在模糊情境下解題、遵循指令的能力 [7]。這類場景通常比單題 benchmark 更複雜,實測時應重現你的提示詞、工具串接與評測 harness。
結論:把 87.6% 當作起點,不是結論
Claude Opus 4.7 最醒目的 benchmark 是 SWE-bench Verified 87.6%,尤其對代理式編碼與軟體任務評估很有參考價值 [7]。但更完整的解讀是:它同時有 SWE-bench Pro 64.3%、Terminal-Bench 2.0 69.4% 與 Finance Agent v1.1 64.4% 等補充分數,而 Anthropic 也公布了多步驟研究與金融模組的內部評測結果 [
7][
8]。
所以,負責任的比較方式不是問「Claude Opus 4.7 的 benchmark 是多少」,而是先問「我的工作流程最像哪一個 benchmark」。做軟體代理,就從 SWE-bench Verified 開始;做終端機、金融、研究或企業長流程,則要看對應的補充分數,並用自己的 harness 驗證。




