呢啲規格對大型 codebase、長技術文件、多步驟分析、需要一路保留上下文嘅 agent workflow 特別有用。 公開 benchmark 入面,最明顯嘅強項亦係呢條線:Vals AI 將 Opus 4.7 排喺多個 coding 同 agent-oriented leaderboard 第一。
但要留神:公開證據未支持「Opus 4.7 係所有任務都最強」呢個講法。Vals AI 顯示它在幾個 benchmark 並非第一,而 Anthropic 自己亦表示 Claude Mythos Preview 比 Opus 4.7 更廣泛有能力。
Opus 4.7 最重要嘅硬規格係上下文容量。Anthropic 同 AWS 列出它支援 100 萬 token context window,最高輸出限制為 128k token。 token 可以簡單理解為模型用嚟計算輸入、輸出長度嘅單位;容量愈大,模型理論上愈適合處理大型 repository、長報告、多檔案技術任務,或者好長嘅 agent trace。
不過,如果團隊打算由舊 Claude model 轉過嚟,要重新計 token budget。Anthropic 指 Opus 4.7 使用新 tokenizer,視乎內容,處理文字時可能會比舊模型計多大約 1x 至 1.35x token。 換句話講,以前啱啱好放得入 prompt 嘅 workflow,轉到 Opus 4.7 未必仲有同樣餘量。
Anthropic 將 Opus 4.7 定位為比 Opus 4.6 更適合高階 software engineering 同複雜、長時間任務的升級。 其發布資料亦強調,它在困難 coding 工作上有更好 instruction-following、self-verification 同一致性。
最具體嘅升幅數字,來自 Anthropic launch material 引用嘅客戶回報:在一個 93 項 coding benchmark 入面,Opus 4.7 較 Opus 4.6 提升 13%,並完成了 4 個 Opus 4.6 同 Sonnet 4.6 都未能解決嘅任務。 呢個結果有參考價值,但嚴格講,它係發布資料入面嘅客戶回報,不等於全面獨立審計。
外部 benchmark 亦支持「coding agent 好強」呢個方向。Vals AI 將 Claude Opus 4.7 排在 Vals Index 1/40、SWE-bench 1/41、Terminal-Bench 2.0 1/52、Vibe Code Bench 1/26。 合埋睇,呢啲排名指向一個特別適合實務 coding、terminal 類任務同 agentic execution 嘅模型。
同一個 Vals AI 頁面亦提醒我哋,結論要收斂啲。Opus 4.7 在 AIME 排 7/96、LiveCodeBench 排 13/103、MMMU Pro 排 7/66。 呢啲都係強勢名次,但唔係第一。
Opus 4.7 亦值得 image-heavy workflow 留意。Anthropic 指,它係 Claude 第一個支援高解像圖像的 model,最大圖像解像度由之前 1,568px/1.15MP 提高至 2,576px/3.75MP。
Anthropic 表示呢個改動改善 low-level perception 同 image localization。 對需要仔細睇圖、定位圖中細節嘅任務,Opus 4.7 會比舊 Claude model 更值得測試;但公開文件更直接證明嘅係「解像度上限提升」,而唔係已經證明所有 production vision 任務都一定全面變準。
但唔應該講成 Anthropic 絕對最強模型。Anthropic 自己在 launch material 指 Claude Mythos Preview 比 Opus 4.7 更廣泛有能力。 所以,「最強普遍可用 Claude」同「Anthropic 任何情況下最強模型」係兩個唔同講法。
相反,如果只係因為聽到 Opus 4.7 好似係 universal leaderboard winner 就直接標準化,風險會高啲。若工作重點係 Vals AI 排名未到第一嘅 benchmark 家族,例如 AIME、LiveCodeBench 或 MMMU Pro,最好先跑自己內部、貼近實際任務嘅評測。
按目前公開證據,Claude Opus 4.7 確實好強。它有 100 萬 token context window、最高 128k output token,並且在 coding 同 agentic workflow 上有特別突出的 benchmark 訊號。
但最準確結論唔係「樣樣第一」。更貼地嘅講法係:Opus 4.7 似乎係目前最強一批普遍可用模型之一,尤其適合 coding agent、長上下文同升級後嘅 vision 任務;同時,Anthropic 自身定位同 Vals AI 的混合跑分結果都顯示,其他模型仍可能在某些範疇贏過它。
Comments
0 comments