Các benchmark này đo khả năng AI giải quyết các vấn đề lập trình thực tế.
SWE‑Bench Multilingual kiểm tra khả năng sửa lỗi thật từ GitHub trên nhiều ngôn ngữ lập trình. Với điểm 79,8%, Composer 2.5 gần ngang Opus 4.7 và thậm chí cao hơn GPT‑5.5 trong bảng so sánh được báo cáo.
Trong khi đó, Terminal‑Bench 2.0 đánh giá khả năng AI hoạt động như một agent trong môi trường terminal — ví dụ chạy lệnh build, test hoặc triển khai. Ở đây Composer 2.5 gần như ngang Opus 4.7 nhưng thấp hơn khá nhiều so với GPT‑5.5.
So với thế hệ trước, cải tiến khá rõ rệt. Ví dụ:
Nhìn tổng thể, Composer 2.5 đạt hiệu năng gần nhóm mô hình frontier, nhưng không phải lúc nào cũng vượt qua các đối thủ hàng đầu.
Điểm khác biệt lớn nhất của Composer 2.5 nằm ở chi phí sử dụng.
Giá công bố:
Ngoài ra còn có bản nhanh hơn:
Một số ước tính cho thấy Claude Opus có thể ở mức khoảng 5 USD / triệu input token và 25 USD / triệu output token, nghĩa là Composer 2.5 bản tiêu chuẩn rẻ hơn rất nhiều — đặc biệt ở output token.
Điều này quan trọng vì các coding agent tiêu thụ lượng token rất lớn. Một tác vụ phức tạp thường gồm nhiều bước:
Chi phí token thấp cho phép hệ thống chạy nhiều bước suy luận hơn mà không làm chi phí tăng quá mạnh.
Theo thông tin từ Cursor, mô hình này được xây dựng trên checkpoint Kimi K2.5 của Moonshot AI, sau đó được huấn luyện bổ sung để tối ưu cho nhiệm vụ lập trình.
Quá trình huấn luyện được cho là có một số đặc điểm đáng chú ý:
Các bài tập synthetic giúp mô hình luyện tập lặp đi lặp lại những workflow phát triển phần mềm như:
Điều này giúp tăng độ ổn định khi xử lý các vấn đề phần mềm thực tế.
Sự ra mắt của Composer 2.5 phản ánh một thay đổi chiến lược lớn của Cursor.
Trong giai đoạn đầu, Cursor IDE phụ thuộc nhiều vào các mô hình từ OpenAI, Anthropic và Google để cung cấp tính năng AI.
Việc xây dựng mô hình nội bộ mang lại một số lợi thế:
Điều này đặc biệt quan trọng khi các đối thủ như Claude Code của Anthropic được tối ưu sâu giữa mô hình AI và công cụ lập trình.
Bằng cách phát triển dòng Composer, Cursor đang chuyển từ vai trò chỉ là IDE tích hợp AI sang mô hình kết hợp sản phẩm + mô hình AI riêng.
Composer 2.5 chưa hoàn toàn vượt trội các mô hình frontier. GPT‑5.5 vẫn dẫn đầu trong một số benchmark agent, còn Claude Opus 4.7 vẫn rất cạnh tranh.
Tuy nhiên, điều khiến mô hình này nổi bật là sự kết hợp giữa:
Nếu Cursor tiếp tục cải thiện các mô hình nội bộ trong khi giữ lợi thế chi phí, điều đó có thể thay đổi đáng kể kinh tế của việc sử dụng AI cho phát triển phần mềm, đặc biệt với các coding agent chạy lâu trong môi trường IDE.
Comments
0 comments