Claude Opus 4.7 的重點,不是某個單一跑分,而是 Anthropic 把 Opus 線推向更長上下文、更可控的 agent 執行、更高解析度視覺,以及更強的軟體工程任務。Anthropic 文件、產品頁與 AWS 上線文都把它放在 coding、long-running agents、professional work 與多步任務的高階位置。[1][
4][
9][
10]
但「很強」不等於「已被證明全市場第一」。目前公開資料能支持的穩健判斷是:Claude Opus 4.7 在 coding 與 agentic tasks 上非常有競爭力;但關鍵分數多來自 Anthropic、AWS 轉述、合作夥伴內部評測或 benchmark 解讀,還不足以構成獨立、可重現的全市場總排名。[9][
10][
14][
15]
它的定位:高階工作模型,而不是便宜短任務模型
Anthropic 官方發布頁表示,開發者可以透過 Claude API 使用 claude-opus-4-7;AWS 也宣布 Claude Opus 4.7 進入 Amazon Bedrock,並稱它是 Anthropic 面向 coding、long-running agents 與 professional work 的高階 Opus 模型。[9][
10]
從產品定位看,Opus 4.7 不是為了簡單短任務而設計的輕量模型。Anthropic 的 Opus 產品頁與開發者文件把它放在專業軟體工程、複雜 agent 工作流、長任務、知識工作與視覺理解等較難場景中理解。[1][
4]
規格:真正影響實戰的升級
| 升級 | 公開資訊 | 實務意義 |
|---|---|---|
| 長上下文與長輸出 | 支援 1M token context window,最大輸出 128k tokens。[ | 更適合大型程式碼庫、長文件、研究脈絡與多輪 agent 任務;但長上下文本身不保證每個任務都會更準。 |
| 推理控制 | 文件列出 adaptive thinking 與新的 xhigh effort 等級。[ | 高難度 coding、規劃與多步推理更有發揮空間,但通常也要重新評估延遲與 token 成本。 |
| Agent 預算 | 引入 task budgets beta,用來控制 agentic loop 的整體 token 預算。[ | 對長流程 agents 特別重要,因為團隊可以把成本與執行範圍納入控制。 |
| 高解析度視覺 | Anthropic 稱 Opus 4.7 是第一個支援高解析度影像的 Claude 模型,最高影像解析度提升到 2576px / 3.75MP,高於先前的 1568px / 1.15MP。[ | 對密集文件、圖表、UI 截圖與需要細節辨識的視覺任務更有利;高解析度影像也會增加 token 使用。[ |
| Tokenizer 與成本 | 新 tokenizer 處理文字時可能比先前模型多用約 1x 到 1.35x tokens,最多約增加 35%,且 token counting 會與 Opus 4.6 不同。[ | 若要進生產環境,不能只看能力;需要重新估算成本、配額、上下文切分與 token 預算。 |
Benchmark:coding 與 agents 的訊號很強
AWS 的 Amazon Bedrock 上線文與 Vellum 的 benchmark 解讀轉述了 Claude Opus 4.7 的官方成績,包括 SWE-bench Pro 64.3%、SWE-bench Verified 87.6%、Terminal-Bench 2.0 69.4%,以及 Finance Agent v1.1 64.4%。[9][
14]
其中,SWE-bench Verified 是由人工驗證的 500 個真實 GitHub issue 子集,用來評估模型為 Python codebases 生成修補程式、解決真實軟體工程問題的能力。[7]
| Benchmark | Opus 4.7 公開轉述分數 | 可以怎麼解讀 |
|---|---|---|
| SWE-bench Verified | 87.6% | 顯示它在真實軟體修補類任務上非常強,但仍要看提示、工具與評測設定。[ |
| SWE-bench Pro | 64.3% | 指向更高難度軟體工程任務能力;適合當成 coding 能力訊號,而不是完整產品排名。[ |
| Terminal-Bench 2.0 | 69.4% | 反映終端機與工具導向任務能力,與 agentic workflow 關聯較高。[ |
| Finance Agent v1.1 | 64.4% | 顯示它在特定專業領域 agent 任務上有量化成績,但仍屬特定 benchmark。[ |
這些分數足以支持一個結論:Opus 4.7 在官方選用的 coding、agentic 與專業任務評測中表現突出。[9][
14] 但它們不應被簡化成「全市場第一」,因為模型排名高度依賴測試集、提示策略、工具設計、模型版本、評分方式與是否可由第三方重現。[
14][
15]
官方與合作夥伴成績該怎麼看
Anthropic 官方公告也列出合作夥伴評測。例如,GitHub 在 93 題 coding benchmark 上回報 Opus 4.7 相比 Opus 4.6 的任務解決率提升 13%;另一個研究代理 benchmark 報告 Opus 4.7 總分 0.715,General Finance 模組從 Opus 4.6 的 0.767 提升到 0.813。[10]
這類資料有參考價值,因為它更接近實際工作流;但證據等級仍要分清楚。Verdent 對相關資料的解讀提醒,Notion 或 Rakuten 這類合作方數字屬於單一內部或專有 benchmark,不是受控的跨模型標準測試。[15]
換句話說,合作夥伴成績可以支持「Opus 4.7 在實務 agent / coding 工作流中很值得測」,但不能單獨支持「它已被中立證明為所有模型第一」。[10][
15]
為什麼不能直接說它是全市場第一?
第一,要先限定「廣泛可用」。 DataCamp 與 VentureBeat 的報導都指出,Anthropic 另有更受限制、未廣泛開放的 Mythos / Mythos Preview 脈絡;因此若把未廣泛釋出的模型也納入,Opus 4.7 不應被理解為 Anthropic 絕對最強的一切模型。[6][
13]
第二,公開證據還不是完整中立橫評。 官方 benchmark、AWS 上線文、合作夥伴回饋與第三方解讀都能證明 Opus 4.7 很強,但它們不等同於獨立機構在相同條件下,對所有主要模型做出的可重現總排名。[9][
10][
14][
15]
第三,模型強弱取決於任務。 Opus 4.7 的公開定位集中在 coding、長時間 agents、專業工作、視覺與多步任務;如果你的需求是低成本大量分類、簡短客服、固定格式摘要或極低延遲工作,最強的高階模型未必是最合適的模型。[1][
4][
9]
什麼情況最值得測 Opus 4.7?
如果工作包含大型程式碼庫修改、複雜 bug 修復、跨檔案重構、長時間工具使用、研究型 agent、專業文件分析,或需要看清密集圖表與 UI 截圖的視覺任務,Opus 4.7 是值得優先測試的候選模型。[1][
4][
9][
10]
更務實的做法,是建立自己的評測集:固定任務、提示、工具、資料、評分標準與人工審查流程,同時記錄成功率、人工修正時間、token 消耗、延遲與工具錯誤率。這對 agentic workflow 尤其重要,因為合作夥伴內部評測未必能代表你的編排方式與資料環境。[15]
成本也需要重新算。Anthropic 已提醒,Opus 4.7 的新 tokenizer 可能讓文字 token 使用增加最多約 35%,高解析度影像也會增加 token 消耗;若要跑長流程 agents,task budgets beta 值得納入測試,作為控制總 token 預算的機制。[1]
最終判斷
Claude Opus 4.7 的公開資料足以支持「非常強」這個結論。它有 1M context window、128k 最大輸出、adaptive thinking、xhigh effort、task budgets beta、更高解析度視覺輸入,且 Anthropic 與 AWS 都把它放在 coding、長流程 agents 與專業工作這些高難度場景中。[1][
4][
9][
10]
但如果問題是「它是否已被獨立證明為全市場最強」,答案仍然要保留。更準確的說法是:Claude Opus 4.7 很可能位於目前廣泛可用商用前沿模型的第一梯隊,特別強在 coding、agent 與長任務;但現有公開證據仍不足以支持無條件的全市場第一名宣稱。[9][
10][
13][
15]




