答案已发布2个月前Last edited 上个月16 来源

Cursor Composer 2.5：编码基准成绩、价格与 AI 编程大战的新格局

Cursor 于 2026 年 5 月 18 日发布 Composer 2.5，在 SWE‑Bench Multilingual 上达到 79.8%，Terminal‑Bench 2.0 为 69.3%，整体性能接近 Claude Opus 4.7 与 GPT‑5.5。[3][4] 该模型专门针对长流程软件工程任务设计，例如跨文件修改、仓库导航、终端执行和持续测试迭代等 AI 编程代理工作流。[18][19] 标准价格仅为每百万输入 Token 0.50 美元、输出 2.50 美元，大幅低于部分前沿模型，使运行长期编码代理的成本显著下降。[18][4]

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Illustration representing Cursor Composer 2.5 competing with other frontier AI coding models — Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5Cursor’s Composer 2.5 aims to deliver frontier‑level coding performance while dramatically lowering the cost of running AI coding agents.
AI 提示
Create a landscape editorial hero image for this Studio Global article: Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5. Article summary: Cursor’s Composer 2.5 is an in‑house coding model released May 18, 2026 that scores about 79.8% on SWE‑Bench Multilingual and 69.3% on Terminal‑Bench 2.0—roughly matching Claude Opus 4.7 on some benchmarks while costi.... Topic tags: cursor, ai coding, developer tools, ai models, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "Composer 2.5 matches Opus 4.7 and GPT-5.5 on CursorBench 3.1 but costs less than a dollar per task - compared to up to eleven dollars for the competition. | Image: Cursor" source context "Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks ..." Reference image 2: visual subject "Composer 2.5 vs Opus | The Results Are Brutal Merv
openai.com

Cursor 推出新的 AI 编程模型

AI 编程工具 Cursor 背后的公司 Anysphere 在 2026 年 5 月 18 日 发布了最新模型 Composer 2.5。该模型专门为软件工程场景优化，例如浏览大型代码仓库、修改多个文件、执行终端命令以及通过测试迭代调试代码等复杂开发流程。

与传统“代码补全”模型不同，Composer 系列的目标是支持 agentic software engineering（代理式软件工程）——也就是让 AI 可以像开发者一样连续完成多个步骤的开发任务，而不仅仅生成一段代码。

相比前一代版本，Composer 2.5 在以下方面有明显改进：

对 长时间任务的持续推理能力更稳定
更可靠地执行 复杂多步骤指令
在 IDE 协作开发过程中 行为更加一致、可预测

这也反映了 AI 编程工具正在从“智能补全”升级为 能执行完整开发流程的 AI 代理。

与 Claude Opus 4.7、GPT‑5.5 的基准对比

Cursor 公布的多个基准测试结果显示，Composer 2.5 已进入当前顶级编码模型的性能梯队。

主要成绩包括：

SWE‑Bench Multilingual：79.8%（Composer 2.5），80.5%（Claude Opus 4.7），77.8%（GPT‑5.5）
Terminal‑Bench 2.0：69.3%（Composer 2.5），69.4%（Claude Opus 4.7），82.7%（GPT‑5.5）
CursorBench v3.1：63.2%（Composer 2.5）

这些数字说明了一个比较微妙的竞争格局：

1. SWE‑Bench Multilingual
该基准主要测试 AI 是否能够解决真实 GitHub 项目中的问题。Composer 2.5 的 79.8% 已经接近 Claude Opus 4.7，并略高于 GPT‑5.5 在该对比表中的成绩。

2. Terminal‑Bench 2.0
这个基准侧重 AI 在终端环境中的代理能力，例如执行命令、编译程序和运行测试。Composer 2.5 的成绩 几乎与 Opus 4.7 持平，但明显落后于 GPT‑5.5。

3. 相比上一代的提升
例如在 SWE‑Bench Multilingual 上，Composer 系列从 73.7% 提升到 79.8%，显示出明显进步。

总体来看，Composer 2.5 在多个软件工程任务上已经 接近或达到前沿模型水平，但并没有在所有评测中全面领先。

为什么它的价格引起关注

如果只看性能，Composer 2.5 只是进入顶级模型行列之一。但真正让行业关注的是 价格结构。

Cursor 公布的定价为：

标准版：每百万输入 Token 0.50 美元
每百万输出 Token 2.50 美元

同时提供一个更快版本：

输入：3.00 美元 / 百万 Token
输出：15.00 美元 / 百万 Token

作为对比，一些报道估算 Claude Opus 的价格大约为：

输入：约 5 美元 / 百万 Token
输出：约 25 美元 / 百万 Token

也就是说，Composer 2.5 标准版的 输出成本可能只有 Opus 的十分之一左右。

这对 AI 编程代理来说非常关键，因为真实开发任务会消耗大量 Token。例如一次完整任务可能包括：

搜索代码仓库
制定修改计划
编辑多个文件
编译或运行代码
执行测试并继续迭代

每一步都可能调用模型。如果 Token 成本高，运行一个长期代理会非常昂贵。

更低的价格意味着 Cursor 可以 在同一任务中运行更多推理步骤，而不会显著增加成本。

模型基础与训练方式

Composer 2.5 的基础来自 Moonshot AI 的 Kimi K2.5 开源权重模型，Cursor 在其之上进行了大量针对软件工程的继续训练。

训练方法的关键特点包括：

使用 约 25 倍于上一代的合成编码任务
约 85% 的训练计算资源用于额外训练和强化学习，而不是只依赖基础模型

所谓“合成任务”通常是自动生成的大规模开发场景，例如：

规划代码修改
修改多个文件
运行测试并修复错误
重复迭代直到通过

通过大量类似训练，模型更容易在真实开发问题中保持稳定表现。

Cursor 的长期战略：减少对外部模型依赖

Composer 2.5 还有一个更深层的意义：它反映了 Cursor 的 战略转型。

在早期版本中，Cursor IDE 的 AI 功能很大程度依赖外部模型，例如：

OpenAI
Anthropic
Google

也就是说，Cursor 本质上是这些模型的“应用层工具”。

但当竞争对手开始推出 模型 + 编程代理一体化产品（例如 Anthropic 的 Claude Code）时，这种模式会带来明显劣势。

如果 Cursor 需要向外部模型支付推理费用，它很难在价格和利润上竞争。

因此，开发自己的模型可以带来几个关键优势：

降低 AI 推理成本
减少对外部模型供应商的依赖
更好地控制 IDE 内的行为和能力

简单说，Cursor 正在从 “AI IDE 公司”转型为“AI 模型 + IDE 平台公司”。

总结

Composer 2.5 并不是在所有基准上都领先的模型。

GPT‑5.5 在某些代理测试中仍然明显更强
Claude Opus 4.7 仍保持非常接近的性能水平

但 Cursor 的关键优势在于另一点：

接近前沿模型的编码能力 + 极低的运行成本。

如果 Cursor 继续提升自研模型，同时保持这种价格优势，AI 编程工具的成本结构可能会被重新定义——尤其是在需要长时间运行的自动化编码代理场景中。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问