報告已發布2 個月前Last edited 上個月24 來源

Claude Opus 4.8 重磅登場：唔單止贏 benchmark，仲學識咗「坦白從寬」

Claude Opus 4.8 喺 SWE Bench Pro Agentic 編碼評測攞到 69.2%，大幅拋離 GPT 5.5 嘅 58.6% 同 Gemini 3.1 Pro 嘅 54.2%，但終端機編碼任務 GPT 5.5 依然領先。標準 API 收費不變，維持每百萬輸入 Token 5 美元、輸出 Token 25 美元；新增嘅「快模式」收費係每百萬輸入 Token 10 美元、輸出 Token 50 美元，速度快約 2.5 倍，但比上一代平咗足足三分二。

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

Anthropic 喺 2026 年 5 月 28 日正式向公眾推出咗 Claude Opus 4.8，定位係佢哋目前能力最全面嘅通用模型。呢次更新係直接繼承 Opus 4.7，主力針對編程（Coding）、長時間運行嘅 AI 代理（Agentic）任務，同埋企業級嘅可靠性。標準收費同上一代保持一樣，但同時仲推出咗一種平好多嘅「快模式」（Fast Mode）同全新嘅工作流程工具。

跑分對決：砌低主要對手

最常被人引用嚟做比較嘅係 SWE-Bench Pro 呢個 Agentic 編程評測。根據 Anthropic 嘅評估數據，Opus 4.8 攞到領先嘅 69.2% 分數，相比自家上一代 Opus 4.7 只有 64.3%，而對手 OpenAI 嘅 GPT-5.5 得 58.6%，Google 嘅 Gemini 3.1 Pro 更只得 54.2% 。

不過，如果睇返更廣泛嘅 Agentic 編程測試，GPT-5.5 喺某啲特定領域仍然有優勢。例如喺 Terminal-Bench 2.1 呢個終端機 Agent 編程評測入面，GPT-5.5 攞到 78.2%，壓過 Opus 4.8 嘅 74.6% 同埋 Gemini 3.1 Pro 嘅 70.3% 。

Anthropic 內部嘅基準測試仲顯示，新模型喺處理知識型工作方面都有明顯進步。佢喺量度具經濟價值知識工作嘅 GDPval-AA 評測入面攞到 1890 分，相比之下 GPT-5.5 係 1769 分，Gemini 就只有 1314 分。睇勻成個評測組合成績，Anthropic 聲稱 Opus 4.8 喺好幾個關鍵範疇都砌低咗兩個主要對手，雖然佢唔係每個單項測試都贏晒。

「誠實」先係最大嘅技術升級

同以往淨係鬥「有幾聰明」唔同，Anthropic 今次好強調改善咗模型嘅「可信度」。公司話 Opus 4.8 「放過自己寫出嚟嘅程式碼漏洞而唔出聲」嘅機率，比上一代 Opus 4.7 足足低咗四倍 。

早期測試者嘅回饋都指出，呢個模型明顯更願意標明自己唔肯定嘅地方，喺處理複雜、多步驟嘅工作流程嗰陣，冇咁易亂咁作啲冇根據嘅嘢出嚟。Anthropic 直頭將「誠實」包裝成今次新產品嘅一個招牌賣點，話個模型冇咁易將啲證據唔充分嘅資訊當成事實咁講出嚟。

動態工作流程同「努力程度」控制登場

除咗基礎模型升級，Anthropic 仲專為開發人員同重度用家推出咗啲新嘅前端功能。

動態工作流程（Dynamic Workflows）： 呢個功能目前喺 Claude Code 入面以「研究預覽」形式提供，用家可以叫個模型規劃一項任務，然後同時指揮數以百計嘅平行「子代理」（subagent）去開工，最後核實晒啲結果先至匯報返出嚟。佢嘅設計係專門用嚟處理超大規模嘅程式碼遷移、審計同捉蟲任務，全部喺單一工作階段入面搞掂。

可調校投入程度 / 努力控制（Effort Control）： 用家而家可以指定模型嘅思考深度。喺 claude.ai 同 Claude Code 入面嗰個「effort」參數，可以畀你喺「醒目程度」、「Token 成本」同「速度」之間取捨。官方文件建議，做最難嘅編程同 Agent 任務就用 xhigh 級別，其他對智能有要求嘅任務就最少要用 high 級別。

API 收費大解構：快模式平咗一大截

一般 API 使用嘅定價同上代 Opus 4.7 一模一樣，冇加價。

標準收費： 每百萬輸入 Token 要 5 美元，每百萬輸出 Token 要 25 美元。
快模式（Fast Mode）收費： 每百萬輸入 Token 要 10 美元，每百萬輸出 Token 要 50 美元。呢個模式嘅運行速度大約係標準嘅 2.5 倍，對比返以前 Opus 系列嘅快模式，價錢平咗約莫三分二，性價比高好多。

至於 Prompt 緩存（Caching）收費方面：5 分鐘寫入緩存係每百萬 Token 6.25 美元；1 小時寫入就每百萬 Token 10 美元；緩存命中同刷新就每百萬 Token 0.50 美元。

呢次發佈對 AI 界意味住乜？

Opus 4.8 嘅發佈，唔單止係純粹跑分嘅性能提升，更加係一次針對企業同開發人員嘅重點升級。佢嘅產品故事核心，係令到 AI 代理程式更加可靠、識得清楚表達自己嘅不確定性，同埋透過明確嘅「努力程度」級別，將成本同效能嘅取捨權交返畀開發人員。定價策略方面就偏向保守，標準 API 完全冇加價，而快模式嘅大幅減價，就令到需要極低延遲嘅應用程式（例如高頻交易、即時編程助手）更容易負擔得起呢種高速推理服務。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問