هذه النتائج تعطي صورة أكثر دقة عن قدرات النموذج:
في SWE‑Bench Multilingual، الذي يقيس قدرة الذكاء الاصطناعي على حل مشاكل حقيقية في GitHub عبر عدة لغات برمجة، يظهر Composer 2.5 قريباً جداً من مستوى نماذج القمة بل ويتفوق قليلاً على GPT‑5.5 في المقارنة المذكورة.
في Terminal‑Bench 2.0، الذي يركز على أداء الوكلاء داخل بيئات الطرفية وتنفيذ أوامر البناء والاختبار، يتقارب أداء Composer 2.5 مع Claude Opus 4.7 لكنه يتأخر بوضوح عن GPT‑5.5.
بالمقارنة مع الجيل السابق، شهد النموذج قفزة واضحة؛ إذ ارتفعت نتيجته في SWE‑Bench Multilingual من 73.7% إلى 79.8%.
باختصار، لا يتفوق النموذج في كل اختبار، لكنه دخل بالفعل نفس فئة الأداء مع النماذج الرائدة في مهام البرمجة.
الجانب الأكثر لفتاً في إطلاق Composer 2.5 ليس الأداء فقط بل التسعير.
تبلغ تكلفة النموذج تقريباً:
كما يتوفر إصدار أسرع بسعر:
للمقارنة، تشير بعض التقديرات إلى أن نماذج Claude Opus قد تكلف حوالي 5 دولارات للإدخال و25 دولاراً للإخراج لكل مليون توكن.
الفرق مهم جداً لأن وكلاء البرمجة يستهلكون كمية ضخمة من التوكنات. فالمهمة الواحدة قد تتضمن:
كل خطوة من هذه الخطوات قد تعني استدعاء جديد للنموذج.
لذلك فإن انخفاض تكلفة التوكنات يسمح بتشغيل عدد أكبر بكثير من خطوات التفكير والتنفيذ دون أن ترتفع التكاليف بسرعة.
يعتمد Composer 2.5 على نقطة انطلاق مفتوحة الأوزان من نموذج Kimi K2.5 الذي طورته شركة Moonshot AI، ثم قامت Cursor بتوسيع التدريب فوقه ليتخصص في مهام هندسة البرمجيات.
وبحسب التقارير التقنية حول التدريب، فقد تضمن:
الهدف من المهام الاصطناعية هو جعل النموذج يتدرب مراراً على سيناريوهات تطوير واقعية مثل:
وهو ما يساعد على تحسين الأداء في مشاكل البرمجة الحقيقية.
إطلاق Composer 2.5 يعكس تحولاً استراتيجياً مهماً لدى Cursor.
في الإصدارات الأولى من البيئة، اعتمدت الشركة بشكل كبير على نماذج خارجية من شركات مثل OpenAI وAnthropic وGoogle لتشغيل ميزات الذكاء الاصطناعي داخل المحرر.
لكن امتلاك نموذج خاص بها يمنح Cursor عدة مزايا:
وهذا مهم خصوصاً لأن المنافسين مثل Claude Code من Anthropic يمتلكون ميزة تكامل قوي بين النموذج نفسه وأداة البرمجة.
من خلال تطوير سلسلة نماذج Composer، تحاول Cursor الانتقال من مجرد واجهة تستخدم نماذج الآخرين إلى منصة تجمع بين النموذج والأداة في منتج واحد متكامل.
نموذج Composer 2.5 لا يتفوق بوضوح على جميع النماذج الرائدة في الاختبارات — فـ GPT‑5.5 لا يزال متقدماً في بعض تقييمات الوكلاء، وClaude Opus 4.7 يبقى منافساً قوياً.
لكن ما يجعل هذا الإصدار مهماً هو الجمع بين:
إذا استمرت Cursor في تحسين نماذجها الداخلية مع الحفاظ على هذا الفارق السعري، فقد يتغير اقتصاد تطوير البرمجيات بالذكاء الاصطناعي — خصوصاً عندما يتعلق الأمر بوكلاء البرمجة الذين يعملون بشكل مستمر داخل بيئات التطوير.
Comments
0 comments