Anthropic 內部嘅基準測試仲顯示,新模型喺處理知識型工作方面都有明顯進步。佢喺量度具經濟價值知識工作嘅 GDPval-AA 評測入面攞到 1890 分,相比之下 GPT-5.5 係 1769 分,Gemini 就只有 1314 分 。睇勻成個評測組合成績,Anthropic 聲稱 Opus 4.8 喺好幾個關鍵範疇都砌低咗兩個主要對手,雖然佢唔係每個單項測試都贏晒
。
同以往淨係鬥「有幾聰明」唔同,Anthropic 今次好強調改善咗模型嘅「可信度」。公司話 Opus 4.8 「放過自己寫出嚟嘅程式碼漏洞而唔出聲」嘅機率,比上一代 Opus 4.7 足足低咗四倍 。
早期測試者嘅回饋都指出,呢個模型明顯更願意標明自己唔肯定嘅地方,喺處理複雜、多步驟嘅工作流程嗰陣,冇咁易亂咁作啲冇根據嘅嘢出嚟 。Anthropic 直頭將「誠實」包裝成今次新產品嘅一個招牌賣點,話個模型冇咁易將啲證據唔充分嘅資訊當成事實咁講出嚟
。
動態工作流程(Dynamic Workflows): 呢個功能目前喺 Claude Code 入面以「研究預覽」形式提供,用家可以叫個模型規劃一項任務,然後同時指揮數以百計嘅平行「子代理」(subagent)去開工,最後核實晒啲結果先至匯報返出嚟。佢嘅設計係專門用嚟處理超大規模嘅程式碼遷移、審計同捉蟲任務,全部喺單一工作階段入面搞掂 。
可調校投入程度 / 努力控制(Effort Control): 用家而家可以指定模型嘅思考深度。喺 claude.ai 同 Claude Code 入面嗰個「effort」參數,可以畀你喺「醒目程度」、「Token 成本」同「速度」之間取捨。官方文件建議,做最難嘅編程同 Agent 任務就用 xhigh 級別,其他對智能有要求嘅任務就最少要用 high 級別 。
至於 Prompt 緩存(Caching)收費方面:5 分鐘寫入緩存係每百萬 Token 6.25 美元;1 小時寫入就每百萬 Token 10 美元;緩存命中同刷新就每百萬 Token 0.50 美元 。
Opus 4.8 嘅發佈,唔單止係純粹跑分嘅性能提升,更加係一次針對企業同開發人員嘅重點升級。佢嘅產品故事核心,係令到 AI 代理程式更加可靠、識得清楚表達自己嘅不確定性,同埋透過明確嘅「努力程度」級別,將成本同效能嘅取捨權交返畀開發人員。定價策略方面就偏向保守,標準 API 完全冇加價,而快模式嘅大幅減價,就令到需要極低延遲嘅應用程式(例如高頻交易、即時編程助手)更容易負擔得起呢種高速推理服務。
Comments
0 comments