喺「Terminal-Bench 2.1」(命令列終端機操作測試)入面,Opus 4.8 攞到 74.6%。雖然呢個項目仲係輸俾 GPT-5.5 嘅 78.2%,但比起 Opus 4.7 嘅 66.1% 已經係一個 8.5 分嘅大躍進 。至於模擬電腦操作嘅「OSWorld-Verified」,Opus 4.8 達到 83.4%,輕輕壓過 Opus 4.7(82.8%)同 GPT-5.5(78.7%)
。
喺知識工作方面,用「GDPval-AA」呢把尺去度,Opus 4.8 獲得 1890 Elo 嘅評分,遠遠拋離 GPT-5.5(1769)同 Gemini(1314)。而喺終極通識考試「Humanity's Last Exam」入面,配合工具輔助之下,佢攞到 57.9% 嘅分數,係 Anthropic 公開模型入面嘅最高紀錄;冇工具輔助嘅話,分數係 49.8%
。
至於偏差行為——例如呃人或者配合濫用操作——嘅出現率都大幅低過 Opus 4.7,甚至同 Anthropic 認為對齊得最好嘅「Claude Mythos Preview」模型睇齊 。呢點對於要靠 AI 去審查或者生成生產環境代碼嘅開發者嚟講好重要,因為你需要一個會主動指出自己盲點嘅模型,而唔係一個充滿自信但交行貨嘅隊友。
對於成日要處理超大型項目嘅開發者,Anthropic 仲喺 Claude Code 入面推出咗「動態工作流程」(Dynamic Workflows)嘅研究預覽版,畀 Enterprise、Team 同 Max 計劃嘅用家試用 。
你冇睇錯,呢個價錢比 Opus 4.6 同 4.7 時代嘅極速模式(要收 $30/$150)平成三倍!就係因為平咗咁多,Anthropic 已經宣布會淘汰 Opus 4.6 嘅極速模式,叫大家快啲轉用 Opus 4.8 或者 4.7 嘅極速模式 。
用 API 開發嘅朋友,只要喺 claude-opus-4-8 呢個 Model ID 設定 speed: "fast"fast-mode-2026-02-01 嘅測試版 Header 就用得 。佢嘅計費方式會疊加你本身用緊嘅提示詞快取同數據駐留嘅收費乘數
。
呢個模型而家已經可以透過 Claude API 用 claude-opus-4-8 呢個代號用到,而且支援極速模式、提示詞快取同批次處理 。Anthropic 嘅 API 文件同平台更新記錄都確認,用緊 Claude Pro、Max、Team 同 Enterprise 計劃嘅客戶都可以即刻用到 Opus 4.8
。
跟住 Opus 4.8 一齊公布嘅,仲有大家最關心嘅「Mythos 神話級」模型嘅消息。由 2026 年 4 月 7 日開始,「Claude Mythos Preview」就一直係透過「Project Glasswing」計劃,淨係開放畀大約 50 間防禦性安全合作夥伴使用 。因為呢個模型嘅攻擊性網絡安全能力太強,強到 Anthropic 唔敢貿貿然放出街
。
但喺 5 月 28 日呢日,Anthropic 嘅口風轉咗,話佢哋「計劃喺未來幾個星期內,向所有客戶發布 Mythos 級別嘅模型」。呢個係自從 Project Glasswing 啟動以嚟,佢哋俾出嘅最明確時間表。同時,佢哋仲披露咗完成咗一輪 650 億美金嘅 H 輪融資,令公司估值推到去 9650 億美金。種種跡象都顯示,神話級模型由研究預覽轉向全面商業化嘅道路,已經開始倒數
。
Claude Opus 4.8 係一次好實在嘅升級,對開發者嚟講有三個好實際嘅轉變:
對於考慮緊轉唔轉軑嘅團隊嚟講,最實際嘅做法,就係直接攞你手頭上嘅編程、智能代理同知識工作任務,丟俾 Opus 4.8 試一試——特別係嗰啲長時間執行、要靠 AI 自己修正錯誤、識得舉手話唔識、同埋可以同時開幾百個執行緒嘅複雜情境。
Comments
0 comments