簡單解讀:
SWE‑Bench Multilingual 主要測試 AI 修復 GitHub 真實 bug 的能力,而且涉及多種程式語言。在這個測試裡,Composer 2.5 幾乎追上 Opus 4.7,並稍微高於 GPT‑5.5。
而在 Terminal‑Bench 2.0(專門測試 AI 在 terminal 環境中的代理能力),Composer 2.5 與 Opus 4.7 幾乎打成平手,但仍落後 GPT‑5.5 一段距離。
整體來看,Composer 2.5 在某些程式任務上已經進入「前沿模型同一梯隊」,但仍未在所有代理測試中全面領先。
這次發布最震撼的其實是 定價策略。
Composer 2.5 的官方價格大約是:
另外還有一個更快版本:
這對 AI 編程代理非常關鍵,因為一個任務可能會包含:
每一步都可能觸發模型呼叫,因此 token 用量往往非常高。
如果 token 價格夠低,AI 代理就能多做很多推理和嘗試,而成本仍然可控。
據報導,其訓練策略包括:
這些合成任務通常模擬真實開發流程,例如:
透過大量重複這些流程,模型能更可靠地處理實際工程問題。
Composer 2.5 其實也透露出 Cursor 的產品戰略。
早期 Cursor IDE 的 AI 功能主要依賴外部模型,例如:
建立自家模型可以帶來幾個優勢:
這點尤其重要,因為 Anthropic 的 Claude Code 本身就是「模型 + 編程代理工具」的整合產品。
Cursor 推出 Composer 系列,其實就是希望在這個 模型與工具一體化的競爭中站穩位置。
Composer 2.5 並沒有在所有 benchmark 上全面超越前沿模型:
但它的關鍵優勢是 接近前沿的編程能力 + 顯著更低的成本。
如果 Cursor 未來能繼續提升模型能力,同時維持這種價格優勢,AI 編程代理在 IDE 內長時間運行的經濟模式,可能會被徹底改寫。
Comments
0 comments