Anthropic 的內部評測也顯示,這款模型在創造商業價值的知識型工作上,展現出顯著的進步。在以金融、法律等領域的知識工作為衡量標準的 GDPval-AA 項目中,Opus 4.8 達到了 1890 分,超越 GPT-5.5 的 1769 分和 Gemini 的 1314 分 。總體而言,Anthropic 宣稱 Opus 4.8 在多項關鍵類別的評比中擊敗了競品,但他們也坦承並未在「每一項」測試都取得勝利
。
有別於單純追求模型「聰明度」的標準跑分大戰,Anthropic 此次在產品敘事上,將更多的重心放在了「模型的可信任度」上。該公司指出,與前一代相比,Opus 4.8 讓自己產生的程式碼在出現瑕疵時卻未能被標記出來的情況,減少了約 四倍 。
早期測試者的回饋意見也強調,這款模型顯著地更傾向於「標記不確定性」,在面對複雜、多步驟的任務流程時,它比較不會做出無事實根據的宣稱 。Anthropic 甚至直接在這次的產品發布中,將「誠實(Honesty)」包裝為一項旗艦級的產品功能,清楚說明這款模型更不容易將未經充分驗證的資訊,當成既定事實來呈現
。
動態工作流程(Dynamic Workflows): 這項以研究預覽形式在 Claude Code 開發工具中亮相的功能,讓模型可以先針對一個大型任務進行規劃,接著同步指揮數以百計的平行子代理來進行協作,最後再自行驗證成果並回報給使用者。此功能專為大規模的程式碼遷移、軟體審計,以及在多個檔案中尋找潛藏漏洞的任務而設計,讓以往曠日廢時的工作,可以在單一對話階段中完成 。
可調整的投入程度 / 努力程度(Effort Control): 使用者現在可以直接在 claude.ai 或是 Claude Code 中,明確指示模型應該投入多少的「心力」來進行思考。透過這項「effort」參數,開發者可以在模型的智慧表現、消耗的 token 成本以及回覆速度之間,靈活地做出權衡。官方文件建議,在面對最困難的程式碼編寫或自主代理任務時,應該使用 xhigh 等級;而對於其他對智慧判斷有較高敏感度的任務,則建議至少使用 high 等級來確保品質 。
此外,針對常需要重複讀取大量相同文本的情境,Anthropic 也提供提示詞快取(Prompt Caching)的計價方式,分別為:5 分鐘快取寫入每百萬 token 6.25 美元、1 小時快取寫入每百萬 token 10 美元,而快取命中和刷新則是每百萬 token 0.50 美元 。
Claude Opus 4.8 的推出,象徵著 AI 軍備競賽正從純粹的「跑分競技」,轉向更貼近真實世界的解決方案比拼。這款產品的核心故事,環繞在替 AI 代理注入「可靠性」、能夠明確溝通不確定性的溝通能力,以及將成本效益比的控制權交還給程式開發者。在價格策略上,Anthropic 維持了常規模型的平穩,同時透過大幅調降 Fast 模式的費用,讓需要極低延遲的應用場景,能以更實惠的成本取得頂尖的模型能力。
整體來說,這不是一次純粹的效能暴力輾壓,而更像是一次目標精準的企業級與開發者體驗升級,為 AI 在專業場域的全面落地,打下了更務實的基礎。
Comments
0 comments