Claude Code 的能力背後,是 Anthropic 一脈相承的旗艦模型。每一代的 Opus 都直接改善了這項工具的編碼、推理與可靠性。
Opus 4.6 在規劃、長時間代理任務的可靠性,以及大型程式碼庫中的操作方面都帶來了顯著改進。最值得注意的是,它在測試階段導入了 100 萬個 token 的上下文窗口——這是首款能處理此規模上下文的 Opus 等級模型 。
從 Opus 4.6 到 4.7 的躍進,對編碼評測而言是震撼性的。僅在一次模型發布中,Anthropic 就將 SWE-bench Verified(自適應模式)的成績從 80.8% 推升至 87.6% 。它也將 SWE-bench Pro 的成績從 53.4% 拉高到 64.3%——領先最接近的競爭對手超過 10 個百分點
。
Opus 4.7 導入了「自適應思考」,能根據任務動態分配運算資源,並在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上,將 100 萬 token 的上下文窗口穩定至生產品質 。
最近的模型升級重點在於精煉而非變革。Opus 4.8 直接建立在 Opus 4.7 之上,將 SWE-bench Pro 的分數從 64.3% 提升到 69.2%,同時大幅降低了未被察覺的程式碼缺陷率。Anthropic 報告指出,該模型讓自己程式碼中的缺陷被忽略的機率降低了四倍,並且測試者觀察到它更願意標記不確定性並避免沒有根據的宣稱 。
最重要的是,Opus 4.8 與 Opus 4.7 的 API 完全相容,且價格相同。它還帶來了比先前模型快 2.5 倍、成本僅為三分之一的「快速模式」,直接改善了 Claude Code 中的開發者體驗 。
Anthropic 於 2026 年 5 月 6 日在舊金山舉辦了首次年度開發者大會「Code with Claude」,並在倫敦和東京舉辦了衛星活動 。這場活動並未展示新模型,而是完全聚焦於平台功能——最引人注目的是針對 Claude 託管代理(Claude Managed Agents)的新功能。
Dreaming(研究預覽) 是這批功能中概念上最具野心的。當代理處於閒置狀態時,一個排程的背景程序會回顧最多 100 次過去的對話,提取重複出現的模式、工作流程與錯誤,然後改寫代理的記憶儲存區,以提高其信號品質。原始的對話資料將保持不可變更——代理只有在明確採納這些記憶更新時才會改變,而開發者可以選擇在記憶變更前進行手動審查 。
多代理協作(Multi-Agent Orchestration,公開測試版) 允許一個主導代理拆解複雜任務,並將工作派送給一群專業的子代理。每個子代理可以有自己的模型、提示和工具,並在共享的檔案系統上並行作業 。
除了託管代理的功能外,Code with Claude 還有以下幾項重要發布:
Claude Code 最受關注的基準測試成績,是使用 Claude Opus 4.7 在自適應模式下,於 SWE-bench Verified 達成的 87.6% 。截至 2026 年 6 月,這是已公開發布的一般可用 AI 編碼代理中,最高的成績。
SWE-bench Verified 是一組從開源 Python 儲存庫中精選的 500 個真實 GitHub 議題,代理必須端到端地解決這些問題。它已成為代理式軟體工程的行業標準參考,而 Claude Code 在這項排行榜上的攀升——從 Opus 4.5 的 80.9% 到 Opus 4.7 的 87.6%——一直是該產品發展的核心敘事 。
87.6% 這個數字並非靜態的。它取決於模型、提示,以及負責協調工具使用的「執行環境(harness)」。Claude Opus 4.7 的自適應模式能為每個任務動態分配運算資源,為複雜的重構任務發送更多資源。如果沒有這個自適應執行環境,單獨運行的 Claude Code 在相同基準測試上的得分是 80.8% 。
在更困難的 SWE-bench Pro 基準測試中——該測試旨在解決更難的真實世界問題——Opus 4.7 得分為 64.3%,領先 GPT-5.4(57.7%)、GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%)。Opus 4.8 隨後將 SWE-bench Pro 的成績進一步推至 69.2%
。
Claude Code 的效能延伸至多項基準測試:
值得留意的是,競爭態勢依然瞬息萬變。OpenAI 的 GPT-5.5 曾在 2026 年中,短暫地以 88.7% 的成績在 SWE-bench Verified 取得領先,形成 Claude Code 在 SWE-bench Pro 上領先,而 GPT-5.5 在 Verified 上領先的局面 。隨著每次模型發布,排行榜仍在持續演進。
Anthropic 對 Claude Code 的定位已圍繞著「長時程自主性」這個概念凝聚成形。Claude Opus 4.8 被描述為擁有「能持續處理長時間任務的一致性和自主性」,並被明確標記為「Anthropic 在複雜推理、長時程代理編碼和高自主性工作中,能力最強的模型」。
這種對持續、獨立運作的重視,而非單次提示補全,正是 Claude Code 最明顯的差異化之處。像 Dreaming、自適應運算分配、多代理協作等功能,都指向一種理念:期望代理能跨工作階段運作,從自身輸出中學習,並在開發者最少干預的情況下,管理複雜的多檔案專案。
Anthropic 也開始強調模型的「誠實」作為競爭優勢。Opus 4.8 的發布重點說明了該模型更願意標記不確定性,並避免做出沒有根據的宣稱——這是一種務實的、以安全為導向的框架,旨在吸引需要在生產環境中信任其代理輸出的開發者 。
Comments
0 comments