这些数字说明了一个比较微妙的竞争格局:
1. SWE‑Bench Multilingual
该基准主要测试 AI 是否能够解决真实 GitHub 项目中的问题。Composer 2.5 的 79.8% 已经接近 Claude Opus 4.7,并略高于 GPT‑5.5 在该对比表中的成绩。
2. Terminal‑Bench 2.0
这个基准侧重 AI 在终端环境中的代理能力,例如执行命令、编译程序和运行测试。Composer 2.5 的成绩 几乎与 Opus 4.7 持平,但明显落后于 GPT‑5.5。
总体来看,Composer 2.5 在多个软件工程任务上已经 接近或达到前沿模型水平,但并没有在所有评测中全面领先。
如果只看性能,Composer 2.5 只是进入顶级模型行列之一。但真正让行业关注的是 价格结构。
Cursor 公布的定价为:
同时提供一个更快版本:
作为对比,一些报道估算 Claude Opus 的价格大约为:
也就是说,Composer 2.5 标准版的 输出成本可能只有 Opus 的十分之一左右。
这对 AI 编程代理来说非常关键,因为真实开发任务会消耗大量 Token。例如一次完整任务可能包括:
每一步都可能调用模型。如果 Token 成本高,运行一个长期代理会非常昂贵。
更低的价格意味着 Cursor 可以 在同一任务中运行更多推理步骤,而不会显著增加成本。
训练方法的关键特点包括:
所谓“合成任务”通常是自动生成的大规模开发场景,例如:
通过大量类似训练,模型更容易在真实开发问题中保持稳定表现。
Composer 2.5 还有一个更深层的意义:它反映了 Cursor 的 战略转型。
在早期版本中,Cursor IDE 的 AI 功能很大程度依赖外部模型,例如:
也就是说,Cursor 本质上是这些模型的“应用层工具”。
如果 Cursor 需要向外部模型支付推理费用,它很难在价格和利润上竞争。
因此,开发自己的模型可以带来几个关键优势:
简单说,Cursor 正在从 “AI IDE 公司”转型为“AI 模型 + IDE 平台公司”。
Composer 2.5 并不是在所有基准上都领先的模型。
但 Cursor 的关键优势在于另一点:
接近前沿模型的编码能力 + 极低的运行成本。
如果 Cursor 继续提升自研模型,同时保持这种价格优势,AI 编程工具的成本结构可能会被重新定义——尤其是在需要长时间运行的自动化编码代理场景中。
Comments
0 comments