報告已發布2 個月前Last edited 上個月24 個來源

Anthropic 發表 Claude Opus 4.8：在編碼與可靠性上全面升級，迎戰 GPT-5.5 與 Gemini

Claude Opus 4.8 在 SWE Bench Pro 代理式編碼評測中拿下 69.2% 的高分，大幅領先 GPT 5.5 的 58.6% 與 Gemini 3.1 Pro 的 54.2%，但在終端機操作評測上仍由 GPT 5.5 居冠。標準 API 定價持平：每百萬輸入 token 收費 5 美元，每百萬輸出 token 收費 25 美元；全新 Fast 模式收費為每百萬輸入/輸出 token 各 10 美元/50 美元，速度快約 2.5 倍，費用只需前代的約三分之一。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

Anthropic 在 2026 年 5 月 28 日向全球公開釋出了 Claude Opus 4.8，將其定位為旗下最強的通用型模型。這次的版本直接接替了先前的 Opus 4.7，並特別針對軟體編碼、長時間的代理式任務，以及企業級應用的可靠性進行強化。標準 API 定價維持不變，而一個便宜許多的 Fast 模式，和新的工作流程工具也伴隨著模型同步推出。

與競爭對手的效能評測比較

在眾多第三方的比較中，最受到業界廣泛討論的，是衡量大型語言模型「自主撰寫程式並解決問題」的SWE-Bench Pro 代理式編碼評測。根據 Anthropic 內部與外部驗證的評測資料，Opus 4.8 在此項目獲得了領先群倫的 69.2% 得分。相比之下，其上一代的 Opus 4.7 得分為 64.3%，OpenAI 的 GPT-5.5 為 58.6%，而 Google 的 Gemini 3.1 Pro 則為 54.2% 。

然而，這不意味著 Opus 4.8 在所有面向都遙遙領先。在更廣泛的代理式操作測試中，GPT-5.5 仍在特定領域保有優勢。例如，在Terminal-Bench 2.1 終端機代理編碼測試裡，GPT-5.5 就以 78.2% 的成績，勝過了 Opus 4.8 的 74.6% 以及 Gemini 3.1 Pro 的 70.3% 。

Anthropic 的內部評測也顯示，這款模型在創造商業價值的知識型工作上，展現出顯著的進步。在以金融、法律等領域的知識工作為衡量標準的 GDPval-AA 項目中，Opus 4.8 達到了 1890 分，超越 GPT-5.5 的 1769 分和 Gemini 的 1314 分。總體而言，Anthropic 宣稱 Opus 4.8 在多項關鍵類別的評比中擊敗了競品，但他們也坦承並未在「每一項」測試都取得勝利。

以誠實與可靠為核心的技術升級

有別於單純追求模型「聰明度」的標準跑分大戰，Anthropic 此次在產品敘事上，將更多的重心放在了「模型的可信任度」上。該公司指出，與前一代相比，Opus 4.8 讓自己產生的程式碼在出現瑕疵時卻未能被標記出來的情況，減少了約四倍。

早期測試者的回饋意見也強調，這款模型顯著地更傾向於「標記不確定性」，在面對複雜、多步驟的任務流程時，它比較不會做出無事實根據的宣稱。Anthropic 甚至直接在這次的產品發布中，將「誠實（Honesty）」包裝為一項旗艦級的產品功能，清楚說明這款模型更不容易將未經充分驗證的資訊，當成既定事實來呈現。

新功能：動態工作流程與可控的思考深度

除了基礎模型本身，Anthropic 也為開發者與重度使用者推出了一系列全新的功能介面。

動態工作流程（Dynamic Workflows）： 這項以研究預覽形式在 Claude Code 開發工具中亮相的功能，讓模型可以先針對一個大型任務進行規劃，接著同步指揮數以百計的平行子代理來進行協作，最後再自行驗證成果並回報給使用者。此功能專為大規模的程式碼遷移、軟體審計，以及在多個檔案中尋找潛藏漏洞的任務而設計，讓以往曠日廢時的工作，可以在單一對話階段中完成。

可調整的投入程度 / 努力程度（Effort Control）： 使用者現在可以直接在 claude.ai 或是 Claude Code 中，明確指示模型應該投入多少的「心力」來進行思考。透過這項「effort」參數，開發者可以在模型的智慧表現、消耗的 token 成本以及回覆速度之間，靈活地做出權衡。官方文件建議，在面對最困難的程式碼編寫或自主代理任務時，應該使用 xhigh 等級；而對於其他對智慧判斷有較高敏感度的任務，則建議至少使用 high 等級來確保品質。

完整的 API 定價策略解析

在開發者最為敏感的價格面向上，Anthropic 這次選擇了相對保守且友善的策略。Opus 4.8 的常規 API 費用，與前一代完全相同，未進行調漲。

標準費率： 每百萬輸入 token 為 5 美元，每百萬輸出 token 為 25 美元。
快速模式費率： 每百萬輸入 token 為 10 美元，每百萬輸出 token 為 50 美元。啟用此模式後，文字生成的速度大約是標準模式的 2.5 倍。對於先前使用 Opus 系列快速模式的使用者來說，這意味著成本降至約三分之一，降價幅度非常驚人。

此外，針對常需要重複讀取大量相同文本的情境，Anthropic 也提供提示詞快取（Prompt Caching）的計價方式，分別為：5 分鐘快取寫入每百萬 token 6.25 美元、1 小時快取寫入每百萬 token 10 美元，而快取命中和刷新則是每百萬 token 0.50 美元。

回歸務實：這款新模型對 AI 產業的意義

Claude Opus 4.8 的推出，象徵著 AI 軍備競賽正從純粹的「跑分競技」，轉向更貼近真實世界的解決方案比拼。這款產品的核心故事，環繞在替 AI 代理注入「可靠性」、能夠明確溝通不確定性的溝通能力，以及將成本效益比的控制權交還給程式開發者。在價格策略上，Anthropic 維持了常規模型的平穩，同時透過大幅調降 Fast 模式的費用，讓需要極低延遲的應用場景，能以更實惠的成本取得頂尖的模型能力。

整體來說，這不是一次純粹的效能暴力輾壓，而更像是一次目標精準的企業級與開發者體驗升級，為 AI 在專業場域的全面落地，打下了更務實的基礎。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問