studioglobal
熱門發現
報告已發布9 來源

Claude Opus 4.7 有幾勁?1M context、SWE-bench 87.6%,但未可叫全市場第一

Claude Opus 4.7 最穩陣定位係前沿商用模型第一梯隊,尤其強喺 coding、長流程 agents 同視覺/多步任務;支援 1M context、128k 輸出,SWE bench Verified 公開轉述分數為 87.6%,但未足以證明全市場第一。[1][9][14][15] 主要升級包括 adaptive thinking、xhigh effort、task budgets beta 同高解析度圖片;要留意新 tokenizer 可能令文字 token 使用最多多約 35%。[1] 落地前唔應只睇官方跑分;最好用自己嘅 coding/agent 任務集,量成功率、人工修正時間、延遲、工具錯誤同 token 成...

18K0
Claude Opus 4.7 實力查核示意圖,呈現 AI 模型、程式碼與 benchmark 分析元素
Claude Opus 4.7 實力查核:1M 上下文、87.6% SWE-bench,但還不能稱全市場第一AI 生成的編輯示意圖;非 Anthropic 官方 benchmark 圖表。
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 實力查核:1M 上下文、87.6% SWE-bench,但還不能稱全市場第一. Article summary: Claude Opus 4.7 很強,尤其適合 coding、長流程 agents、專業工作與視覺任務;它支援 1M context、128k 最大輸出,AWS 與 benchmark 解讀轉述的 SWE bench Verified 成績為 87.6%,但公開證據仍不足以證明它已獨立成為全市場第一。[1][9][14]. Topic tags: ai, anthropic, claude, llm benchmarks, ai agents. Reference image context from search candidates: Reference image 1: visual subject "幾個值得關注的數據點: Agentic coding(SWE-bench Verified)拿到87.6%,目前同場最高。Agentic computer use 78.0%、scaled tool use 77.3%,也都排在第一。" source context "Claude Opus 4.7 發布 附上跟主流模型的 benchmark 對比。 幾個值得關注的數據點: Agentic coding(SWE-bench Verified)拿到 87.6%,目前同場最高。Agentic computer" Reference image 2: visual subject "[Skip to main content](https://www.anthropic.com/claude/opus#main-content)[Skip to footer](https://www.anthropic.com/claude/opus#footer). ![Image 1: Claude

openai.com

一句講晒:Claude Opus 4.7 係好勁,但唔好將「好勁」直接等同「全市場第一」。公開資料最穩陣嘅講法係:佢好可能屬於而家廣泛可用商用前沿模型嘅第一梯隊,尤其適合 coding、AI agent、長任務同需要細節視覺理解嘅工作;但現有證據未足以支持無條件嘅總冠軍宣稱。[1][4][9][10][14][15]

Anthropic 自家文件、產品頁同 AWS 上線文,都將 Opus 4.7 放喺 coding、long-running agents、professional work、多步任務呢類高難度場景。[1][4][9][10] 真正要問嘅唔係單純「佢係咪最勁」,而係「喺你嘅任務、工具鏈同成本限制入面,佢係咪最值得用」。

先講定位:高階工作模型,唔係平價短任務模型

Anthropic 表示,開發者可以透過 Claude API 使用 claude-opus-4-7;AWS 亦宣布 Opus 4.7 已登陸 Amazon Bedrock,並稱它係 Anthropic 面向 coding、long-running agents 同 professional work 嘅高階 Opus 模型。[9][10]

換句話講,Opus 4.7 唔係為簡單短任務、低成本跑量而設嘅輕量模型。Anthropic 的 Opus 產品頁同開發者文件,明顯將它放喺專業軟件工程、複雜 agent 工作流、長任務、知識工作同視覺理解等較難場景入面理解。[1][4]

最影響實戰嘅規格升級

升級公開資料落地時代表咩
1M context / 128k 輸出支援 1M token context window,最大輸出 128k tokens。[1]可以處理更長程式碼庫、長文件、研究脈絡同多輪 agent 狀態;不過 context 大,唔代表每個任務都會自動更準。
推理控制文件列出 adaptive thinking 同新 xhigh effort 等級。[1]高難度 coding、規劃同多步推理會有更多發揮空間;但通常亦要重新估算延遲同 token 成本。
Agent 預算引入 task budgets beta,用嚟控制 agentic loop 嘅整體 token 預算。[1]對長流程 agents 特別重要,因為團隊可以將成本同執行範圍納入控制。
高解析度視覺Anthropic 稱 Opus 4.7 係第一個支援高解析度影像嘅 Claude 模型,最高影像解析度升至 2576px / 3.75MP,高於之前的 1568px / 1.15MP。[1]對密集文件、圖表、UI 截圖同需要細節辨識嘅視覺任務更有利;高解析度圖片亦會增加 token 使用。[1]
Tokenizer 同成本新 tokenizer 處理文字時,可能比先前模型多用約 1x 至 1.35x tokens,最高約多 35%;token counting 亦會同 Opus 4.6 唔同。[1]如果要上 production,唔可以只睇能力;要重新計成本、配額、context 切分同 token budget。

跑分:coding 同 agent 訊號的確好強

如果只睇 coding 同 agent 相關評測,Opus 4.7 釋出嘅訊號係相當強。AWS 的 Amazon Bedrock 上線文同 Vellum 的 benchmark 解讀,轉述了 Claude Opus 4.7 的官方成績,包括 SWE-bench Pro 64.3%、SWE-bench Verified 87.6%、Terminal-Bench 2.0 69.4%,以及 Finance Agent v1.1 64.4%。[9][14]

當中,SWE-bench Verified 係由人工驗證的 500 個真實 GitHub issue 子集,用嚟評估模型為 Python codebases 產生修補程式、解決真實軟件工程問題嘅能力。[7]

BenchmarkOpus 4.7 公開轉述分數可以點睇
SWE-bench Verified87.6%顯示它喺真實軟件修補類任務上非常強,但仍要睇 prompt、工具同評測設定。[7][9][14]
SWE-bench Pro64.3%指向更高難度軟件工程任務能力;適合當成 coding 能力訊號,而唔係完整產品排名。[9][14]
Terminal-Bench 2.069.4%反映終端機同工具導向任務能力,與 agentic workflow 關聯較高。[14]
Finance Agent v1.164.4%顯示它喺特定專業領域 agent 任務上有量化成績,但仍然係特定 benchmark。[14]

呢啲分數足以支持一個結論:Opus 4.7 喺官方選用嘅 coding、agentic 同專業任務評測入面表現突出。[9][14] 但 benchmark 唔應該被簡化成「全市場第一」,因為模型排名好受測試集、prompt 策略、工具設計、模型版本、評分方法同第三方可重現性影響。[14][15]

合作方數據:貼近實戰,但要識分證據級別

Anthropic 官方公告亦列出合作夥伴評測。例如 GitHub 在 93 題 coding benchmark 上回報,Opus 4.7 相比 Opus 4.6 的任務解決率提升 13%;另一個研究代理 benchmark 則報告 Opus 4.7 總分 0.715,General Finance 模組由 Opus 4.6 的 0.767 升至 0.813。[10]

呢類資料有參考價值,因為它更接近實際工作流。不過證據級別要分清楚。Verdent 對相關資料的解讀提醒,Notion 或 Rakuten 這類合作方數字屬於單一內部或專有 benchmark,唔係受控嘅跨模型標準測試。[15]

所以,合作夥伴成績可以支持「Opus 4.7 喺實務 agent / coding 工作流入面好值得測」,但唔足以單獨支持「它已被中立證明係所有模型第一」。[10][15]

點解唔可以一口咬定全市場第一?

第一,要先講清楚「廣泛可用」呢條線。 DataCamp 同 VentureBeat 都提到,Anthropic 另有更受限制、未廣泛開放嘅 Mythos / Mythos Preview 脈絡;所以如果將未廣泛釋出嘅模型都計入,Opus 4.7 唔應該被理解為 Anthropic 絕對最強嘅一切模型。[6][13]

第二,公開證據未係完整中立橫向比較。 官方 benchmark、AWS 上線文、合作夥伴回饋同第三方解讀,都可以證明 Opus 4.7 好強;但它們唔等於獨立機構喺相同條件下,對所有主要模型做出可重現總排名。[9][10][14][15]

第三,模型強弱要睇任務。 Opus 4.7 的公開定位集中喺 coding、長時間 agents、專業工作、視覺同多步任務;如果你要做嘅係低成本大量分類、簡短客服、固定格式摘要,或者極低延遲工作,最強高階模型未必就係最適合嘅模型。[1][4][9]

咩情況最值得試 Opus 4.7?

如果你嘅工作包括大型程式碼庫修改、複雜 bug 修復、跨檔案重構、長時間工具使用、研究型 agent、專業文件分析,或者需要睇清密集圖表同 UI 截圖嘅視覺任務,Opus 4.7 係值得優先測試嘅候選模型。[1][4][9][10]

更務實嘅做法,係建立自己嘅評測集:固定任務、prompt、工具、資料、評分標準同人工審查流程,同時記錄成功率、人工修正時間、token 消耗、延遲同工具錯誤率。對 agentic workflow 嚟講尤其重要,因為合作方內部評測未必代表你自己嘅編排方式同資料環境。[15]

成本亦要重新計。Anthropic 已提醒,Opus 4.7 的新 tokenizer 可能令文字 token 使用最多增加約 35%,高解析度圖片亦會增加 token 消耗;如果要跑長流程 agents,task budgets beta 值得納入測試,用嚟控制整體 token 預算。[1]

底線:好強,但「全市場第一」要留手

Claude Opus 4.7 的公開資料,足以支持「非常強」呢個判斷。它有 1M context window、128k 最大輸出、adaptive thinking、xhigh effort、task budgets beta、更高解析度視覺輸入;Anthropic 同 AWS 亦都將它放喺 coding、長流程 agents 同專業工作呢啲高難度場景。[1][4][9][10]

但如果問題係「它是否已被獨立證明為全市場最強」,答案仍然要保留。更準確講法係:Claude Opus 4.7 很可能位於目前廣泛可用商用前沿模型第一梯隊,特別強喺 coding、agent 同長任務;但現有公開證據仍不足以支持無條件嘅全市場第一名宣稱。[9][10][13][15]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • Claude Opus 4.7 最穩陣定位係前沿商用模型第一梯隊,尤其強喺 coding、長流程 agents 同視覺/多步任務;支援 1M context、128k 輸出,SWE bench Verified 公開轉述分數為 87.6%,但未足以證明全市場第一。[1][9][14][15]
  • 主要升級包括 adaptive thinking、xhigh effort、task budgets beta 同高解析度圖片;要留意新 tokenizer 可能令文字 token 使用最多多約 35%。[1]
  • 落地前唔應只睇官方跑分;最好用自己嘅 coding/agent 任務集,量成功率、人工修正時間、延遲、工具錯誤同 token 成本。[10][15]

人們還問

「Claude Opus 4.7 有幾勁?1M context、SWE-bench 87.6%,但未可叫全市場第一」的簡短答案是什麼?

Claude Opus 4.7 最穩陣定位係前沿商用模型第一梯隊,尤其強喺 coding、長流程 agents 同視覺/多步任務;支援 1M context、128k 輸出,SWE bench Verified 公開轉述分數為 87.6%,但未足以證明全市場第一。[1][9][14][15]

首先要驗證的關鍵點是什麼?

Claude Opus 4.7 最穩陣定位係前沿商用模型第一梯隊,尤其強喺 coding、長流程 agents 同視覺/多步任務;支援 1M context、128k 輸出,SWE bench Verified 公開轉述分數為 87.6%,但未足以證明全市場第一。[1][9][14][15] 主要升級包括 adaptive thinking、xhigh effort、task budgets beta 同高解析度圖片;要留意新 tokenizer 可能令文字 token 使用最多多約 35%。[1]

接下來在實務上我該做什麼?

落地前唔應只睇官方跑分;最好用自己嘅 coding/agent 任務集,量成功率、人工修正時間、延遲、工具錯誤同 token 成本。[10][15]

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

搜尋並查核事實:Claude Opus 4.7 有多強大?

Studio Global AI12 來源

引用的答案

查核後,Claude Opus 4.7 不是傳聞,Anthropic 已在 2026-04-16 正式發布,並把它定位為目前「最強、且已廣泛可用」的 Claude 模型。[2][6] 但如果把尚未全面開放的內部模型也算進來,官方自己也明說 Claude Mythos Preview 整體能力更強,Opus 4.7 並不是 Anthropic 絕對最強的那一個。[2][6]

  • 就定位來看,Opus 4.7 主打進階軟體工程、AI agents、複雜多步驟任務與專業知識工作,並提供 1M context window。[2][6]
  • 相比 Opus 4.6,Anthropic 說 4.7 在最難的軟體工程任務上進步明顯,能更穩定處理長時間任務、更精準遵循指令,且更會先驗證自己的輸出再回報。[6]
  • 在視覺能力上,官方稱 4.7 可處理更高解析度影像,對技術圖表、化學結構等多模態內容更強。[2][6]
  • 作為參照,Anthropic 在 2026-02 對 Opus 4.6 的公開說法是:它已在 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA、BrowseComp 等評測居前;而 4.7 又被官方描述為整體優於 4.6 的後繼版,所以它大概率仍屬現階段商用頂級模型。[5][6]
  • 但目前我能查到的強證據,主要仍是 Anthropic 官方公告、產品頁與其挑選的早期合作夥伴評測,不是完整的獨立第三方橫向測試。[2][6]
  • 例如官方頁面收錄的合作方評測提到:GitHub 內部 93 題 coding benchmark 上,Opus 4.7 對 Opus 4.6 的任務解決率提升 13%;另有研究代理 benchmark 報告它總分達 0.715、在 General Finance 模組為 0.813 對 4.6 的 0.767。[2][6]
  • 不過這些數字來自合作夥伴內部評測與 Anthropic 官方頁面轉述,能證明「很強」,但還不足以單憑這些資料就斷言它已被獨立證明為全市場第一。[2][6]

如果你要一句話結論:Claude Opus 4.7 很強,且看起來是目前最強的「已廣泛可用」Claude 之一,特別強在 coding、agent 與長流程任務;但若要說它已客觀、獨立地證明是全市場最強,現有公開證據仍不足。[2][5][6]

如果你願意,我下一步可以幫你把它和 GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.6 做一個「實戰能力對比」版本。

研究問題

研究並查核事實:Claude Opus 4.7 有多強大?

Studio Global AI20 來源

引用的答案

就目前可查到的公開資料看,Claude Opus 4.7 確實屬於前沿等級模型,特別強在程式開發、長流程 agent 任務、專業知識工作與視覺理解,而且 Anthropic 明確把它定位為目前「最強的廣泛可用 Claude 模型」。[1][5][15] 但如果問題是「它是否已被獨立證明為全市場最強」,答案要保留:Anthropic 自己也說 Claude Mythos Preview 更強,只是沒有像 Opus 4.7 那樣廣泛釋出,而我查到的強證據目前仍以官方材料、AWS 轉述與合作夥伴內部評測為主。[14][15]

Key findings

  • Anthropic 於 2026-04-16 正式發布 Claude Opus 4.7,並表示它已「generally available」,可在 Claude 產品、Claude API、Amazon Bedrock、Google Cloud Vertex AI 與 Microsoft Foundry 使用。[15]
  • Anthropic 的開發者文件把 Opus 4.7 定位為「截至目前最強的廣泛可用模型」,並說它在長時程 agentic work、知識工作、視覺任務與記憶任務上表現特別好。[1]
  • 這個模型支援 1M token context window、128k 最大輸出、adaptive thinking,以及新的 xhigh effort 等級;同時也引入 task budgets(beta)來控制 agentic loop 的整體 token 預算。[1]
  • 就「有多強」的核心能力來看,Anthropic 官方公告稱,Opus 4.7 相比 Opus 4.6 在進階軟體工程上有顯著提升,尤其是在最困難的任務上,且它更能穩定處理複雜、長時間任務,更精準遵循指令,並傾向先驗證自己的輸出再回報。[15]
  • 在產品定位上,Anthropic 官網寫得更直接:Opus 4.7 是一個面向專業軟體工程、複雜 agent 工作流與高風險企業任務的高階模型,主打在大程式碼庫、長流程與多步任務中的可靠性。[5]
  • 視覺能力是這次的重要升級之一。Anthropic 文件指出,Opus 4.7 是第一個支援高解析度影像的 Claude 模型,最高影像解析度提升到 2576px / 3.75MP,高於之前的 1568px / 1.15MP,並改善圖表、密集文件、UI 截圖、定位與低階感知任務的表現。[1]
  • 依 AWS 發布的 Amazon Bedrock 上線文章轉述 Anthropic 數據,Opus 4.7 的官方 benchmark 成績包含 SWE-bench Pro 64.3%、SWE-bench Verified 87.6%、Terminal-Bench 2.0 69.4%,以及 Finance Agent v1.1 64.4%。[14]
  • Anthropic 官網公告還列出多個合作夥伴內部評測:GitHub 表示在其 93 題 coding benchmark 上,Opus 4.7 對 Opus 4.6 的任務解決率提升 13%,其中有 4 題連 Opus 4.6 與 Sonnet 4.6 都沒解出;另一個研究代理 benchmark 則稱 Opus 4.7 的總分達 0.715,並在 General Finance 模組從 Opus 4.6 的 0.767 提升到 0.813。[15]
  • 不過,Anthropic 也明說 Opus 4.7 並不是它「絕對最強」的模型,因為 Claude Mythos Preview 更強;Opus 4.7 的重點是它屬於較廣泛可用的版本。[15]
  • 還有一個實務上的代價是成本與 token 使用。Anthropic 文件提醒,Opus 4.7 的新 tokenizer 在處理文字時,可能會比先前模型多用約 0% 到 35% 的 tokens,而高解析度圖片也會增加 token 消耗。[1]

Evidence notes

  • 目前最可靠的核心事實,主要來自 Anthropic 官方公告、Anthropic 開發者文件與 Anthropic 產品頁,因此像「是否存在」「是否已正式發布」「是否廣泛可用」「官方如何定位它」這幾點,可信度高。[1][5][15]
  • 具體分數型 benchmark 證據,雖然有 AWS 上線文與 Anthropic 公告可引用,但多數仍是 Anthropic 自述或合作夥伴內部評測,不等於完整的中立第三方橫向驗證。[14][15]
  • 我主要依據這幾個來源:Anthropic 開發者文件《What’s new in Claude Opus 4.7》[1]、Anthropic 產品頁《Claude Opus 4.7》[5]、AWS News Blog 的 Bedrock 上線文[14]、Anthropic 官方新聞稿《Introducing Claude Opus 4.7》[15]

Limitations / uncertainty

  • 對於「Claude Opus 4.7 是否已被獨立證明為全市場最強模型」這個更強的說法,Insufficient evidence。[14][15]
  • 我查到的公開材料裡,最硬的證據仍偏向官方與生態夥伴,而不是大量、成熟、可重現的第三方基準總表。[14][15]
  • 因此,更穩妥的結論是:它幾乎可以確定非常強,且很可能位於目前商用頂級模型第一梯隊;但若要下「無可爭議的全市場第一」結論,現階段公開證據還不夠。[1][14][15]

Summary

Claude Opus 4.7 很強,而且從官方可核實資料來看,它是 Anthropic 目前最強的「廣泛可用」Claude 模型,重點優勢在 coding、長流程 agents、長上下文推理、專業知識工作與高解析度視覺理解。[1][5][15] 但若把尚未廣泛釋出的 Claude Mythos Preview 也算進來,Opus 4.7 並非 Anthropic 絕對最強;若要宣稱它已被獨立驗證為整個市場最強,目前仍缺足夠公開證據。[14][15]

如果你要,我下一步可以幫你做一版「Claude Opus 4.7 vs GPT-5 / Gemini / Claude Sonnet」的實戰能力對比,分成 coding、研究、長任務與價格四個面向。

來源