قوة Claude لا تظهر فقط في توليد مقطع كود قصير، بل في السيناريو الأقرب إلى عمل المطور اليومي داخل مشروع قائم. Emergent ينتقد المقارنات التي تركز على جودة التوليد وحدها، ويقول إن الأداء الحقيقي في البرمجة يتحدد بقدرة النظام على التعامل مع عمل متعدد الخطوات على مستوى المستودع وتحت الضغط؛ ثم يحدد Claude Code مع Opus 4.6 للتصحيح المعقد، والاستدلال عبر عدة ملفات، وتغييرات الكود عالية المخاطر.
هذا مهم لأن إصلاح عطل في مشروع فعلي لا يعني غالبًا تعديل سطر واحد. قد تحتاج إلى فهم البنية، تتبع الاعتمادات بين الملفات، تشغيل اختبارات، ثم تعديل الحل بعد ظهور خطأ جديد. Emergent يذكر تحديدًا أن Claude Code يحافظ على السياق عبر قواعد كود كبيرة، ويتحمل التصحيح التكراري من دون تدهور.
وتأتي نقطة مهمة من الاختبارات: Awesome Agents يذكر أن GPT-5.4 يتصدر SWE-bench Pro عندما يُستخدم إطار وكيل مخصص، لكنه يذكر أيضًا أن Claude Opus 4.5/4.6 يتقدم في تقييم Scale SEAL لـ SWE-bench Pro عندما تُوحَّد أدوات الوكيل بين كل النماذج. لذلك، عند تقييم مساعدين برمجيين يعملون كوكلاء، لا يكفي سؤال «أي نموذج؟»؛ يجب أيضًا سؤال «بأي إطار تشغيل؟».
نماذج GPT-5.x Codex تستحق مكانًا في أي قائمة قصيرة جدية، خصوصًا إذا كان فريقك يعتمد على مسارات عمل قريبة من OpenAI/Codex أو يستخدم إطار وكيل مخصصًا. Awesome Agents يذكر أن GPT-5.4 يتصدر SWE-bench Pro بنسبة 57.7% مع إطار وكيل مخصص، ويصف SWE-bench Pro بأنه نسخة أصعب مبنية من 1,865 مهمة عبر 41 مستودعًا.
كما تعرض لوحة SWE-bench إدخال GPT-5-2 Codex بنتيجة 72.80 في الإدخالات الظاهرة. هذه إشارة قوية للفرق التي تهتم بالاختبارات المعيارية، لكنها لا تكفي وحدها لحسم القرار في كل مشروع؛ فالأدلة نفسها تظهر أن طريقة بناء الوكيل يمكن أن تغيّر ترتيب المتصدرين.
Gemini مرشح جاد عندما يكون الاختيار مدفوعًا بنتائج SWE-bench. لوحة SWE-bench تعرض Gemini 3 Flash مع وضع high reasoning بنتيجة 75.80، متقدمًا على إدخال GPT-5-2 Codex الظاهر عند 72.80.
لكن نتيجة لوحة عامة لا تعني تلقائيًا أنه سيكون الأفضل داخل مستودعك. بيئتك قد تختلف في الصلاحيات، ونظام الاختبارات، ومعايير مراجعة الكود، وطريقة تشغيل الوكيل، وحجم قاعدة الكود. لذلك يجب التعامل مع Gemini كمرشح قوي للاختبار، لا كإجابة نهائية دون تجربة محلية.
اختلاف النتائج ليس بالضرورة تناقضًا؛ غالبًا لأن كل اختبار يقيس شيئًا مختلفًا.
الخلاصة هنا بسيطة: استخدم الترتيبات العامة لبناء قائمة قصيرة، لا لاستبدال اختبارك أنت.
أفضل طريقة هي تجربة مضبوطة على مهام تشبه عملك الحقيقي. استخدم المستودع نفسه، والتعليمات نفسها، والصلاحيات نفسها، والوقت نفسه، وطريقة المراجعة نفسها لكل مرشح.
اجعل الاختبار يتضمن مثلًا:
من المهم أن تفصل في التقييم بين النموذج وبين إطار الوكيل المحيط به. الأدلة المتاحة توضح أن الانتقال من إطار مخصص إلى أدوات موحدة قد يغيّر النموذج المتصدر.
وعند تسجيل النتائج، ركز على مؤشرات هندسية لا على الرقم وحده: هل نجحت الاختبارات؟ هل شرح النموذج ما فعله بدقة؟ هل حافظ على السياق؟ هل عدّل فقط ما يلزم؟ وكم مراجعة بشرية احتاج الحل قبل الدمج؟ في كود الإنتاج، هذه الأسئلة غالبًا أهم من فارق صغير في لوحة ترتيب.
لأصعب أعمال البرمجة الواقعية داخل مستودعات الكود، فإن Claude Code مع نماذج Opus هو أفضل اختيار افتراضي تدعمه الأدلة المتاحة. أما إذا كان تقييمك قائمًا على الاختبارات المعيارية، فـ GPT-5.x Codex وGemini يبقيان مرشحين قويين، مع تسجيل GPT-5.4 نسبة 57.7% على SWE-bench Pro عند استخدام إطار وكيل مخصص، وظهور Gemini 3 Flash في SWE-bench بنتيجة 75.80.
الإجابة الأكثر أمانًا ليست أن نموذجًا واحدًا ينتصر دائمًا. القاعدة العملية هي: ابدأ بـ Claude Code/Opus للأعمال المعقدة على مستوى المستودع، واختبر GPT-5.x Codex وGemini عندما تقود النتائج المعيارية قرارك، ثم احسم بناءً على أداء كل نموذج داخل كودك أنت.
Comments
0 comments