Cursor가 공개한 주요 벤치마크 결과는 다음과 같다.
SWE‑Bench Multilingual
이 테스트는 실제 GitHub 이슈를 해결하는 능력을 평가하는 벤치마크로, 여러 프로그래밍 언어에서의 문제 해결 능력을 측정한다.
Terminal‑Bench 2.0
이 벤치마크는 터미널 환경에서의 에이전트 능력을 평가한다. 예를 들어:
이전 세대와 비교하면 개선 폭도 크다.
요약하면 Composer 2.5는 일부 테스트에서 최상위 모델들과 같은 성능 등급에 근접하지만, 모든 평가에서 우위를 보이는 것은 아니다.
성능만큼 업계에서 주목한 것은 가격이다.
Composer 2.5 가격은 다음과 같다.
또한 더 빠른 버전도 있다.
이 가격 차이가 중요한 이유는 AI 코딩 에이전트가 매우 많은 토큰을 소비하기 때문이다.
하나의 작업에서도 다음이 반복된다.
각 단계마다 모델 호출이 발생하기 때문에 토큰 사용량이 빠르게 늘어난다.
토큰 가격이 낮으면 Cursor는 더 많은 추론 단계와 반복 작업을 실행하면서도 비용을 낮게 유지할 수 있다.
Cursor는 여기에 추가 학습을 진행해 소프트웨어 개발 작업에 맞게 최적화했다.
보고된 학습 방식에 따르면 다음 특징이 있다.
합성 작업은 모델이 반복적으로 다음과 같은 흐름을 연습하도록 만든다.
이 방식은 실제 엔지니어링 문제 해결 능력을 높이는 데 도움을 준다.
Composer 2.5는 단순한 모델 업데이트 이상의 의미를 가진다.
초기 Cursor IDE는 다음과 같은 외부 모델에 크게 의존했다.
하지만 자체 모델을 개발하면 다음과 같은 이점이 생긴다.
특히 Anthropic이 Claude Code처럼 모델과 개발 도구를 함께 제공하면서 경쟁이 심해진 상황에서, Cursor도 “모델 + 개발 도구” 통합 전략으로 방향을 바꾸고 있다는 분석이 나온다.
Composer 2.5는 모든 벤치마크에서 경쟁 모델을 압도하는 모델은 아니다.
하지만 Composer 2.5의 핵심은 **“거의 같은 수준의 코딩 성능 + 훨씬 낮은 비용”**이라는 조합이다.
Cursor가 이 성능 격차를 더 줄이면서 가격 경쟁력을 유지한다면, IDE 내부에서 동작하는 AI 코딩 에이전트 시장의 비용 구조 자체가 크게 바뀔 가능성이 있다.
Comments
0 comments