這些數據透露出幾個重點:
1. SWE‑Bench Multilingual
這個基準測試會要求 AI 修復真實 GitHub issue(跨多種程式語言)。在這項測試中,Composer 2.5 的 79.8% 幾乎與 Opus 4.7 持平,甚至略高於 GPT‑5.5。
2. Terminal‑Bench 2.0
這個測試專門評估 AI 在終端環境中執行開發任務的能力,例如建置、測試與部署。Composer 2.5 與 Opus 4.7 幾乎同分,但仍明顯落後 GPT‑5.5。
整體來看,Composer 2.5 已經進入與頂級模型同一性能層級,但在某些代理任務上仍未全面領先。
Composer 2.5 最引人注意的地方其實是 價格。
標準版本:
另外提供更快的版本:
相比之下,一些報導估計 Claude Opus 的價格大約是:
換句話說,Composer 2.5 的標準版本輸出成本可能只有 Opus 的 十分之一。
這個差距之所以重要,是因為 AI 程式代理通常非常耗 token。一個任務可能包含:
每個步驟都可能觸發多次模型呼叫。因此 token 成本直接決定 AI 開發工具的經濟可行性。
報導指出其訓練流程包括:
所謂「合成任務」通常是模擬完整開發流程,例如:
透過大量重複練習這類流程,模型更容易在真實專案中穩定完成長鏈任務。
Composer 2.5 的推出也反映 Cursor 的戰略轉變。
擁有自己的模型堆疊意味著:
這一點尤其重要,因為像 Anthropic 的 Claude Code 這類產品,本身就擁有「模型 + 工具」的垂直整合優勢。
透過 Composer 系列模型,Cursor 正試圖從單純的 IDE 工具,轉變為 同時擁有 AI 模型與開發平台的公司。
Composer 2.5 並沒有在所有基準測試上全面超越 GPT‑5.5 或 Claude Opus 4.7,但它展現了一個不同的競爭策略:
接近前沿模型的程式能力 + 顯著更低的推理成本。
如果 Cursor 能持續提升自家模型能力,同時保持這樣的價格優勢,AI 軟體開發工具的成本結構——尤其是長時間運作的 AI 程式代理——可能會因此被重新定義。
Comments
0 comments