在測試命令列代理式程式碼能力的 Terminal-Bench 2.1 上,Opus 4.8 獲得 74.6% 的分數。雖然仍落後於 GPT-5.5 的 78.2%,但已大幅躍升並超越 Opus 4.7 在同一評估中的 66.1% 。針對代理式電腦操作,Opus 4.8 於 OSWorld-Verified 上達到 83.4%,小幅領先 Opus 4.7(82.8%)與 GPT-5.5(78.7%)
。
在知識性工作方面,透過 GDPval-AA 衡量,Opus 4.8 的 Elo 分數高達 1890,遠高於 GPT-5.5 的 1769,並與 Gemini(1314)拉開極大差距 。在針對多領域推理的「人類最後一試(Humanity's Last Exam)」上,搭配工具使用時得分 57.9%——這是 Anthropic 一般性權限中的最高成績——相較於未使用工具版本的 49.8% 亦有所提升
。
包含欺騙行為或配合濫用在內的「不對齊行為」發生率,也大幅低於 Opus 4.7,並與 Anthropic 認為其對齊度最佳的模型——Claude Mythos Preview——的表現相當 。這對於仰賴 AI 審查或生成正式環境程式碼的開發者至關重要,他們需要一個能夠自行標記盲點,而非自信滿滿地給出有缺陷輸出的模型。
更顯著的定價變化發生在速度方面。Opus 4.8 的快速模式(Fast Mode)提供最高 2.5 倍的輸出權杖生成速度,而費用降至每百萬輸入權杖 10 美元、每百萬輸出權杖 50 美元 。 相較於 Opus 4.6 與 Opus 4.7 時期快速模式的 30/150 美元定價,足足便宜了三倍之多
。Anthropic 已淘汰 Opus 4.6 的快速模式,並引導使用者遷移至 Opus 4.8 或 4.7 的快速模式
。
若要在 API 中啟用快速模式,開發者只需在模型 ID 設定為 claude-opus-4-8 時,一併設定 speed: "fast"fast-mode-2026-02-01 即可 。此功能在整個 20 萬以上的輸入權杖脈絡視窗中,都是以標準費率的乘數方式計價,並可與提示快取與資料駐留的價格乘數疊加適用
。
此模型目前已可透過 Claude API 使用,別名為 claude-opus-4-8,並支援快速模式、提示快取與批次處理等多種配置 。Anthropic 的 API 文件與平台更新日誌均證實,企業、團隊、Pro 與 Max 方案的客戶均可立即存取 Opus 4.8
。
伴隨著 Opus 4.8 的發表,Anthropic 也更明確地給出了 Mythos 等級模型全面普及的時間表。自 2026 年 4 月 7 日起,Claude Mythos Preview 便透過「琉璃翼計畫」,僅開放給約 50 個防禦性安全合作夥伴使用 。該模型的攻擊性網路安全能力極強,以至於 Anthropic 選擇暫時不對公眾釋出
。
5 月 28 日,Anthropic 更新了其公開立場,表示計劃在未來幾週內,向所有客戶推出 Mythos 等級模型 。這是該公司自啟動琉璃翼計畫以來,所給出的最明確時間表。與此同時,該公司還揭露了高達 650 億美元的 H 輪募資,以及投後估值達到 9650 億美元的消息,再次印證商業化路徑正從研究預覽,穩健地邁向全面普及
。
Claude Opus 4.8 是一次漸進式的模型升級,對開發者而言,主要帶來三項實質差異:
對於正在評估是否轉換的團隊而言,最關鍵的訊號是:親自用 Opus 4.8 測試你手上的程式碼、代理機制與知識性工作任務——特別是在那些長期運作的對談中,自我修正、不確定性標記,以及平行子代理編排能力顯得尤為重要的情境下。
Comments
0 comments