أقوى حالة لصالح Claude Opus 4.7 هي العمل داخل مستودع قائم: قراءة فشل الاختبارات، فهم السبب، تعديل جزء محدود من الكود، ثم الوصول إلى نتيجة يمكن لمراجع بشري قبولها. في SWE-bench Pro، تعرض Anthropic نتيجة 64.3% لـOpus 4.7، وتعرض مقارنة منشورة GPT-5.5 عند 58.6% مقابل 64.3% لـClaude Opus 4.7.
هذا لا يعني أن Claude يفوز في كل ما يسمى برمجة. لكنه يعني أن الإشارة المنشورة تميل لصالحه عندما تكون المهمة أقرب إلى إصلاح مشكلة حقيقية في مستودع، لا مجرد توليد دالة قصيرة من الصفر.
كما أن تموضع النموذج نفسه يدعم هذا الاستخدام. في ملاحظات إصدار Claude API بتاريخ 16 أبريل 2026، قالت Anthropic إن Claude Opus 4.7 هو أقوى نموذج متاح عموماً لديها للتفكير المعقد والبرمجة الوكيلة.
هناك أيضاً خصائص مصممة للحلقات الطويلة. أضاف Claude Opus 4.7 ميزة تجريبية اسمها task budgets وذكرت Anthropic أن مستخدمي Opus 4.7 أصبحوا افتراضياً على مستوى الجهد
xhigh.
ابدأ بـClaude Opus 4.7 إذا كانت مهامك تشبه الآتي:
لكن تعامل مع ذلك كبداية اختبار لا كحكم نهائي. فقد أُشير إلى أن SWE-bench له عدة نسخ، وأن كل شركة قد تبرز المؤشر الذي يخدم صورتها بشكل أفضل.
قوة GPT-5.5 تظهر بوضوح أكبر عندما تصبح البرمجة أقرب إلى إدارة بيئة تطوير كاملة من الطرفية. في جدول VentureBeat لـTerminal-Bench 2.0، سُجل GPT-5.5 عند 82.7 مقابل 69.4 لـClaude Opus 4.7.
هذه نقطة مهمة لأن Terminal-Bench 2.0 لا يقيس مجرد كتابة مقطع كود. يوصف المعيار بأنه يحاكي سير عمل معقداً في سطر الأوامر يتطلب التخطيط، والتكرار، وتنسيق الأدوات. أي أنه أقرب إلى وكيل يشغل أمراً، يقرأ الخطأ، يعدل الخطة، ثم يعيد التشغيل.
ابدأ بـGPT-5.5 إذا كانت مهامك تشبه الآتي:
مع ذلك، لا تكفي نتيجة Terminal-Bench 2.0 للقول إن GPT-5.5 سينتج دائماً أفضل تصحيح أو أفضل طلب دمج. القدرة على إدارة الطرفية مهمة، لكنها ليست هي نفسها جودة التعديل النهائي في الكود.
في التقييمات التي تشمل التصفح واستدعاء الأدوات، الصورة مختلطة. في بيانات OpenAI، يتقدم GPT-5.5 في BrowseComp بنتيجة 84.4% مقابل 79.3% لـClaude Opus 4.7، لكن Claude Opus 4.7 يتقدم في MCP Atlas بنتيجة 79.1% مقابل 75.3% لـGPT-5.5.
لذلك لا يكفي أن تقول إنك تريد نموذجاً يستخدم الأدوات. هل الأداة الأساسية هي المتصفح؟ أم الطرفية المحلية؟ أم نظام ملفات المستودع؟ أم منصة مراجعة الكود؟ كل حالة تختبر مهارة مختلفة.
أولاً، لا تقرأ الترتيب العام للنماذج كأنه ترتيب برمجة. على سبيل المثال، يظهر في ترتيب BenchLM العام أن GPT-5.4 حصل على 88 نقطة وأن Claude Opus 4.7 حصل على 86 نقطة، لكن هذا ليس GPT-5.5 وليس تقييماً خاصاً بالبرمجة.
ثانياً، لا تختزل البرمجة كلها في SWE-bench Pro. هذا معيار مهم، لكنه ليس عالماً كاملاً. توجد له نسخ متعددة، وقد تُبرز الشركات المؤشرات التي تناسب روايتها التسويقية.
ثالثاً، لا تخلط بين معيار الطرفية ومعيار جودة الكود. Terminal-Bench 2.0 يعطي إشارة عن التخطيط والتكرار وتنسيق الأدوات في سطر الأوامر، أما سؤال هل ينتج النموذج تعديلاً نظيفاً قابلاً للدمج فيجب اختباره داخل مستودعك.
المعايير العامة مفيدة لتقليل الخيارات، لكنها لا تكفي لاختيار نموذج سيعمل يومياً مع مستودعك. الأفضل إجراء اختبار A/B مضبوط قدر الإمكان.
اجعل الشروط متطابقة:
ثم قيّم ما يهم فعلاً في العمل:
لإصلاحات المستودعات، وتتبع الأخطاء، وتمرير الاختبارات، وإنتاج تعديلات تصلح لطلبات الدمج، ابدأ بتقييم Claude Opus 4.7. الإشارة المنشورة في SWE-bench Pro تميل لصالحه مقارنة بـGPT-5.5.
أما لو كان الهدف وكيلاً تطويرياً يعيش داخل الطرفية، ينفذ الأوامر، يقرأ السجلات، ويكرر دورات البناء والاختبار، فابدأ بتقييم GPT-5.5. الإشارة المنشورة في Terminal-Bench 2.0 تميل لصالحه بوضوح.
الخلاصة العملية: Claude أولاً عندما تكون المشكلة تعديل كود قائم، وGPT-5.5 أولاً عندما تكون المشكلة إدارة سير عمل طرفية. بعد ذلك، دع مستودعك واختباراتك ومراجعيك يقررون الفائز الحقيقي.
Comments
0 comments