Claude Opus 4.7 確實是前沿級別的模型,但問「有多強」時,答案不能只看品牌或型號。更準確的說法是:根據目前公開資料,它是 Anthropic 目前正式提供的一般可用 Claude 模型中能力最強的一款,尤其在程式開發代理、長上下文工作、複雜技術任務,以及較高解析度的影像輸入上有明顯訊號。[5][
2][
11][
12]
先說結論:很強,但不是「全科狀元」
Anthropic 與 AWS 都把 Claude Opus 4.7 描述為 Anthropic 目前最有能力的一般可用模型。[5][
2] 其主要規格包括 100 萬 token 上下文視窗、最高 128k token 輸出、自適應思考能力,以及推理支援。[
5][
2]
這些規格讓它很適合處理大型程式碼庫、長篇技術文件、多步驟分析,以及需要在長時間執行中保留大量上下文的代理式工作流程。[5][
2] 從公開基準來看,最有說服力的故事也在這個方向:Vals AI 將 Opus 4.7 排在多個程式開發與代理相關排行榜的第一名。[
12]
但要注意,公開證據並不支持「它在所有任務都是最強」這種說法。Vals AI 在若干基準中把 Opus 4.7 列在第一名之外;而 Anthropic 自家的發布資料也表示,Claude Mythos Preview 的整體能力比 Opus 4.7 更廣。[11][
12]
實務上最關鍵的規格
Opus 4.7 最值得注意的原始能力,是上下文規模。Anthropic 與 AWS 都列出它支援 100 萬 token 的上下文視窗,以及最高 128k token 的輸出上限。[5][
2]
這對實務工作很重要。當模型必須閱讀並維持大量資訊,例如整個 repository、長篇報告、多檔案技術任務,或代理系統留下的詳細執行軌跡時,長上下文能力往往會直接影響可用性。[5][
2]
不過,若團隊打算從舊版 Claude 遷移,還有一個細節需要先測。Anthropic 表示,Opus 4.7 使用新的 tokenizer;視內容而定,同一段文字可能會被計為舊模型約 1 到 1.35 倍的 token。[5] 換句話說,過去在舊版 Claude 上剛好能放進提示或工作流程的內容,換到 Opus 4.7 後最好重新檢查 token 預算。[
5]
程式開發與代理任務,是目前最強的公開訊號
Anthropic 將 Opus 4.7 定位為相較 Opus 4.6,在進階軟體工程與複雜長時間任務上有明顯進步的模型。[11] 發布資料也強調,它在困難程式工作中的指令遵循、自我驗證與一致性有所提升。[
11]
Anthropic 公開發布內容中最清楚的一個提升數字,是客戶回報的結果:在一個包含 93 項任務的程式基準測試中,Opus 4.7 較 Opus 4.6 提升 13%,並完成了 4 個 Opus 4.6 與 Sonnet 4.6 都未解出的任務。[11] 這是有意義的訊號,但仍應視為發布材料中的證據,而不是廣泛獨立審計的結論。[
11]
外部基準資料也支持「程式代理很強」這個判斷。Vals AI 將 Claude Opus 4.7 列為 Vals Index 的 1/40、SWE-bench 的 1/41、Terminal-Bench 2.0 的 1/52,以及 Vibe Code Bench 的 1/26。[12] 放在一起看,這些排名指向同一件事:Opus 4.7 對實務程式開發、終端機式任務與代理執行相當有競爭力。[
12]
基準表現亮眼,但不是每一項都登頂
同一份 Vals AI 頁面也提醒我們,結論要保守一些。Opus 4.7 在 AIME 排名 7/96、LiveCodeBench 排名 13/103、MMMU Pro 排名 7/66。[12] 這些仍是強勢名次,但並不是第一名。[
12]
| 基準訊號 | 公開列出的結果 | 可以怎麼解讀 |
|---|---|---|
| Vals Index | 1/40 | 在 Vals 的整體模型索引中表現突出。[ |
| SWE-bench | 1/41 | 軟體工程相關基準表現非常強。[ |
| Terminal-Bench 2.0 | 1/52 | 終端機環境下的代理任務表現強。[ |
| Vibe Code Bench | 1/26 | 支持其程式代理定位。[ |
| AIME | 7/96 | 具競爭力,但在 Vals 排名中不是第一。[ |
| LiveCodeBench | 13/103 | 在這項基準中不是 Vals 列出的最高排名模型。[ |
| MMMU Pro | 7/66 | 表現強,但不是 Vals 排名中的領先者。[ |
Vals AI 也提醒,部分基準可能使用不同供應商與參數,因此這些排名適合當作方向性證據,而不應被視為完全受控、逐項條件一致的比較。[12]
視覺能力也有實質升級
Opus 4.7 對影像密集型工作也值得注意。Anthropic 表示,它是 Claude 第一個支援高解析度影像的模型,最高影像解析度從先前的 1568px/1.15MP 提高到 2576px/3.75MP。[5]
Anthropic 稱,這項改變改善了低階感知與影像定位能力。[5] 因此,與較早的 Claude 模型相比,Opus 4.7 更適合需要處理細節豐富視覺輸入的場景;不過,公開文件對「解析度升級」的支持最直接,並不等同於已證明它在每一種生產環境視覺任務中都全面勝出。[
5]
它是最強 Claude 嗎?要看怎麼定義
如果問題是:「Claude Opus 4.7 是 Anthropic 目前正式提供的一般可用 Claude 模型中最強的嗎?」根據這裡整理的公開資料,答案可以說是肯定的。[5][
2]
但如果問題是:「它是不是 Anthropic 旗下所有 Claude 模型中最強、所有任務都最好的模型?」那就不能這樣下結論。Anthropic 自己的發布資料表示,Claude Opus 4.7 的整體能力廣度不如 Claude Mythos Preview。[11]
這個區分很重要:Opus 4.7 可以是目前一般可用 Opus 系列中非常強的模型,但仍不代表它在每個任務、每個基準、每個使用情境都壓過所有其他模型。[11]
什麼情況適合選 Opus 4.7?
從公開資料看,Opus 4.7 最適合的場景,是那些會真正用到其文件化優勢的工作:困難程式任務、多步驟代理執行、大型程式碼庫、超長文件,以及高解析度影像輸入。[5][
2][
11][
12]
相反地,如果只是因為它聽起來像「排行榜全勝模型」就直接全面導入,風險會比較高。若你的工作負載依賴 AIME、LiveCodeBench 或 MMMU Pro 這類 Opus 4.7 並未在 Vals AI 排名第一的基準家族,更穩妥的做法是先用自己的任務資料做針對性評估,再決定是否標準化採用。[12]
最後一句話
Claude Opus 4.7 很強,這點有公開證據支持。它具備 100 萬 token 上下文視窗、最高 128k token 輸出,並在程式開發與代理式工作流程上呈現特別強的基準訊號。[5][
2][
12]
但最審慎的結論不是「它什麼都第一」。更合理的說法是:Opus 4.7 看起來是目前一般可用模型中,最適合程式代理、長上下文工作與升級版視覺任務的強力選項之一;同時,Anthropic 自家的模型定位與 Vals AI 的混合基準結果,也保留了其他模型在部分領域勝出的空間。[11][
12]




