由 2025 年 2 月一路到 5 月正式版推出之前,0.2.x 系列版本一直穩定咁改善緊 Terminal 嘅使用體驗。當 Claude Code 正式推出嗰陣,佢基本上已經準備好畀工程師用喺真正嘅軟件開發工作上 。
要講 Claude Code 點解咁勁,就一定要睇下背後嗰幾代旗艦模型嘅升級。每一代 Opus 推出,都會令到佢嘅編碼能力、推理能力同可靠性大幅提升。
Claude Opus 4.5 喺 2025 年 11 月推出,Anthropic 定位佢為「全世界最叻嘅模型,無論係編碼、做代理定係電腦操作都係頂尖」 。佢亦都奠定咗 Opus 4.x 嘅架構基礎。
Opus 4.6 喺規劃能力、長時間代理任務嘅可靠性、同埋喺大型程式碼庫入面操作都有明顯進步。最值得留意嘅係,佢首次喺測試版入面加入咗 100 萬 token 嘅超長上下文視窗(Context Window),係 Opus 級別嘅模型第一次做到呢個規模嘅處理能力 。
由 Opus 4.6 到 Opus 4.7,係一次震撼咗編碼界嘅大躍進。淨係一個版本嘅更新,Anthropic 就將 SWE-bench Verified 嘅分數,由 80.8% 一口氣推到上 87.6% 。佢更加將 SWE-bench Pro 由 53.4% 跳升到 64.3%,領先當時嘅主要競爭對手超過 10 個百分點
。
Opus 4.7 引入咗「自適應思考」(Adaptive Thinking),可以按任務嘅複雜度動態分配運算資源,仲將 100 萬 token 嘅上下文視窗,升級到可以喺 Anthropic API、Amazon Bedrock 同 Google Cloud Vertex AI 度穩定咁用 。
最新嘅模型升級可以話係精益求精。Opus 4.8 係建基於 Opus 4.7 嘅改良版,佢將 SWE-bench Pro 分數由 64.3% 再推到 69.2%,同時大幅減少咗未被檢測到嘅程式碼缺陷發生率。Anthropic 話,呢個模型「走漏眼」放過自己寫嘅程式漏洞嘅機率,比上一代低咗四倍,而且早期測試者仲發現佢更加願意主動標記返自己唔確定嘅地方,冇咁易亂咁作出冇根據嘅斷言 。
最重要嘅係,Opus 4.8 嘅 API 完全兼容 Opus 4.7 嘅程式碼,價錢一樣之餘,仲推出咗一個速度快 2.5 倍嘅「快速模式」,成本只係之前型號嘅三分之一,直接令開發者用 Claude Code 嗰陣爽快好多 。
Anthropic 喺 2026 年 5 月 6 日搞咗佢哋首屆年度開發者大會「Code with Claude」,主場喺三藩市,倫敦同東京都有衛星活動 。今次大會冇好似往常咁推出新模型,而係將重點完全放喺平台功能上面,當中最搶眼嘅,就係畀「Claude 受管理代理」(Claude Managed Agents)用嘅一系列新功能。
「做夢」Dreaming(研究預覽版) 可以話係咁多項入面概念最大膽嗰個。當代理處於閒置狀態時,一個排定咗嘅背景程序會自動檢閱最多 100 次過往嘅對話記錄,分析返有冇啲經常重複嘅模式、工作流程,或者係犯過嘅錯,然後重新編寫代理嘅記憶庫,令到啲記憶更加「高純度」。原始嘅對話記錄會原封不動咁保留,代理只會明確咁採用呢啲記憶更新,而且開發者仲可以揀人手審批,先至改動記憶 。
「成果」Outcomes(公開測試版) 引入咗結構化嘅成功標準。一個獨立嘅評估器會喺隔離咗嘅上下文視窗入面運作,根據開發者定好嘅評分標準(Rubrics)嚟打分,如果分數低過門檻,代理就會自動重做 。
「多代理協作」Multi-Agent Orchestration(公開測試版) 容許一個領頭嘅代理將複雜嘅任務拆散,再分派畀一班專精嘅子代理,每個子代理都可以有自己嘅模型、指令同工具,仲可以喺同一個共享嘅檔案系統上面並行作業 。
除咗受管理代理嘅功能之外,「Code with Claude」大會仲有以下發布:
Claude Code 最為人津津樂道嘅,就係佢嗰個標誌性嘅 87.6% 分數,係用 Claude Opus 4.7 嘅自適應模式喺 SWE-bench Verified 呢個基準測試度創出嚟嘅 。截至 2026 年 6 月,呢個分數代表住市面上所有通用 AI 編碼代理之中嘅最高水平。
SWE-bench Verified 係一套由 500 個真實 GitHub 問題組成、經過人手篩選嘅測試集,全部都係出自開源 Python 庫,要求代理由頭到尾完整解決問題。佢已經成為咗業界評核代理式軟件工程能力嘅黃金標準。Claude Code 喺呢個排行榜嘅崛起過程——由 Opus 4.5 嘅 80.9% 升到 Opus 4.7 嘅 87.6%——本身就係一個好有說服力嘅產品故事 。
87.6% 呢個分數唔係固定不變嘅。佢取決於背後嘅模型、指令(Prompt)同埋「測試環境」(Harness)——即係嗰個負責編排點樣使用工具嘅執行環境。Claude Opus 4.7 嘅自適應模式會按每個任務嘅需要,動態咁分配運算資源,遇到複雜嘅重構就畀多啲資源。如果係冇開到呢個自適應模式嘅獨立版 Claude Code,喺同一個基準測試度就只會攞到 80.8% 。
喺更加難嘅 SWE-bench Pro 基準測試入面——呢個測試模擬嘅係更難嘅真實世界問題——Opus 4.7 攞到 64.3%,領先 GPT-5.4 嘅 57.7%、GPT-5.5 嘅 58.6% 同埋 Gemini 3.1 Pro 嘅 54.2% 。後嚟 Opus 4.8 再將 SWE-bench Pro 嘅分數推到上 69.2%
。
Claude Code 喺多個基準測試度嘅表現都好標青:
不過要留意,呢個競爭嘅局面仍然瞬息萬變。OpenAI 嘅 GPT-5.5 喺 2026 年中曾經短暫咁喺 SWE-bench Verified 度攞到 88.7% 領先,令到出現咗 Claude Code 喺 SWE-bench Pro 領先,而 GPT-5.5 就喺 Verified 領先嘅分庭抗禮局面 。隨住每次新模型推出,呢個排行榜都會不斷變化。
Anthropic 對 Claude Code 嘅市場定位,已經濃縮成 「長時間自主性」(Long-Horizon Autonomy) 呢個概念。Claude Opus 4.8 被形容為具有「能夠持續處理長時間任務嘅一致性同自主性」,仲被明確標籤做「Anthropic 最強嘅模型,用嚟處理複雜推理、長時間代理編碼同高自主性嘅工作」 。
呢種強調持續、獨立運作,而唔係單次問答嘅方針,正正係 Claude Code 最與別不同嘅地方。「做夢」、自適應運算分配、多代理協作呢啲功能,全部都指向一個設計理念:就係期望代理可以跨工作階段咁運作,由自己嘅輸出入面學習,仲能夠喺開發者盡量唔介入嘅情況下,管理涉及多個檔案嘅複雜項目。
Anthropic 仲開始強調「模型誠實度」係佢哋嘅競爭優勢。Opus 4.8 嘅發布就重點強調咗,呢個模型更願意標記唔確定嘅地方,避免作出冇根據嘅斷言——呢種務實嘅安全取態,係衝住嗰啲需要喺生產環境信賴代理輸出嘅開發者而嚟嘅 。
Comments
0 comments