أقوى حجة لصالح Claude Opus 4.6 تأتي من SWE-Bench Verified. الأرقام المذكورة في المصادر تضعه عند 79.2% أو 79.4% أو 80.8% في هذا المتغير من الاختبار .
أما GPT-5.3-Codex فقراءته أصعب؛ لأن المصادر لا تستخدم دائمًا السطر نفسه من SWE-Bench. تحليل GPT-5.4 يذكر GPT-5.3-Codex عند 56.8% في SWE-Bench Pro، بينما تذكر مقارنات أخرى بين Opus وCodex نتيجة 78.2% لـ GPT-5.3-Codex على SWE-Bench Pro Public . هذا ليس سببًا لأخذ متوسط بسيط بين الرقمين، بل تنبيه إلى أن الاختبارات مختلفة. عدة مصادر تؤكد أن SWE-Bench Verified وSWE-Bench Pro Public لا يصلحان للمقارنة المباشرة
.
بالنسبة إلى GPT-5.4، أوضح تفوق مباشر له داخل OpenAI في هذه المصادر يبدو صغيرًا: 57.7% في SWE-Bench Pro مقابل 56.8% لـ GPT-5.3-Codex في التحليل نفسه . وهناك ملخص آخر يشير إلى رقم 57.7% لـ GPT-5.4 في SWE-Bench Pro Public، مع التحذير نفسه من أن مقارنة Claude وGPT هنا ليست مقارنة متكافئة تمامًا
.
قراءة Terminal-Bench 2.0 تحتاج حذرًا خاصًا. لوحة النتائج العامة تعرض أزواجًا من الوكيل والنموذج، لا أداء النموذج الأساسي وحده . في هذه اللوحة، يظهر GPT-5.3-Codex عند 78.4% مع SageAgent، و77.3% مع Droid، و75.1% مع Simple Codex
. ويظهر Claude Opus 4.6 عند 79.8% مع ForgeCode، و75.3% مع Capy، و62.9% مع Terminus 2
.
هذا الفارق داخل النموذج نفسه كافٍ لتغيير الفائز الظاهر. مقارنة GPT-5.4 تضع GPT-5.3-Codex أمام Claude Opus 4.6 في Terminal-Bench 2.0 بنتيجة 77.3% مقابل 65.4% . لكن لوحة النتائج العامة تعرض إدخال ForgeCode/Claude Opus 4.6 عند 79.8%، أي أعلى من إدخال SageAgent/GPT-5.3-Codex عند 78.4%
. الخلاصة العملية: لا تحكم على نموذج في مهام الطرفية إلا بعد تثبيت إطار الوكيل أو اختباره ضمن البيئة نفسها.
إذا كان معيارك الأقرب إلى الواقع هو SWE-Bench Verified، فإن Claude Opus 4.6 هو نقطة البداية الأفضل دعمًا في هذه المصادر. نتائجه المعلنة أو المذكورة تدور حول 79% إلى 81%: 79.2% في تحليل GPT-5.4، و79.4% في مقارنات Opus وCodex، و80.8% في جولات معيارية أخرى .
لكن هذا لا يعني أنه ينتصر في كل أنواع البرمجة. قصته في Terminal-Bench مختلطة: بعض المقارنات تذكر 65.4%، بينما تعرض اللوحة العامة 79.8% عندما يقترن Opus 4.6 بـ ForgeCode و62.9% مع Terminus 2 . لذلك هو خيار أول آمن لاختبارات إصلاح المستودعات على نمط Verified، لا بطلًا مطلقًا لكل سيناريو.
تبرز قيمة GPT-5.3-Codex عندما تشبه المهمة عمل وكيل يقرأ الطرفية، ينفذ أوامر، يعدل ملفات، ويكرر المحاولة. التقارير تذكره عند 77.3% في Terminal-Bench 2.0، ولوحة النتائج العامة تضعه عند 78.4% مع SageAgent، و77.3% مع Droid، و75.1% مع Simple Codex .
أما في SWE-Bench، فالصورة تحتاج ضبطًا أدق. بعض المصادر تذكر GPT-5.3-Codex عند 78.2% في SWE-Bench Pro Public، بينما تذكر مصادر أخرى 56.8% في SWE-Bench Pro . وبما أن المصادر نفسها تنبه إلى أن المتغيرات ليست قابلة للتبديل المباشر، فمن الأفضل تقييم GPT-5.3-Codex داخل نسخة الاختبار والإعداد الذي ستستخدمه فعليًا
.
لا تبدو أرقام GPT-5.4 في هذه المجموعة كقفزة ساحقة في البرمجة. المقارنة المباشرة داخل المصدر نفسه تمنحه تقدّمًا ضيقًا في SWE-Bench Pro على GPT-5.3-Codex، 57.7% مقابل 56.8%، لكنها تضعه أدنى منه في Terminal-Bench 2.0، 75.1% مقابل 77.3% .
النقطة الأكثر تميزًا في GPT-5.4 هنا ليست حل الأخطاء بحد ذاته، بل استخدام الأدوات. تحليل GPT-5.4 يقول إن البحث عن الأدوات يخفض استخدام رموز MCP بنسبة 47% عبر تحميل تعريفات الأدوات عند الحاجة بدل وضع كل التعريفات في السياق منذ البداية . في وكلاء البرمجة كثيفة الأدوات قد يكون ذلك مهمًا، لكنه يحتاج قياسًا منفصلًا عن دقة حل المسائل البرمجية.
ابدأ بـ Claude Opus 4.6 إذا كان عملك يشبه إصلاح أخطاء مستودعات ضمن SWE-Bench Verified، وأبقِ GPT-5.3-Codex حاضرًا في أي اختبار لوكلاء الطرفية، وجرّب GPT-5.4 إذا كنت تريد أحدث نموذج من OpenAI أو تريد قياس فائدة كفاءته في استخدام الأدوات . الحكم الأكثر أمانًا ليس أن نموذجًا واحدًا يهيمن على البرمجة، بل أن الفائز يتغير بحسب نسخة الاختبار، وإطار الوكيل، وطبيعة العمل الذي ستنفذه فعليًا
.
Comments
0 comments