إذا كنت تبحث عن اسم واحد تقول عنه إنه أفضل نموذج للبرمجة، فالأرقام المتاحة لا تساعدك على هذا الاختصار. الصورة الأقرب للواقع هي أن Claude Opus 4.6 يبدو الأقوى في SWE-Bench Verified، وأن GPT-5.3-Codex هو خيار OpenAI الأبرز في مهام Terminal-Bench 2.0 داخل التقارير المذكورة، بينما تبدو مكاسب GPT-5.4 المباشرة في البرمجة محدودة وليست قفزة فاصلة [1][
3][
5][
7][
9].
المهم هنا ليس الرقم وحده، بل طريقة القياس. اختبارات SWE-Bench لها نسخ ومتغيرات مختلفة، ونتائج Terminal-Bench العامة تقيس غالبًا زوجًا من الوكيل والنموذج، لا النموذج وحده [1][
6][
7][
10]. لذلك فالسؤال الأدق ليس: من الأفضل؟ بل: من الأفضل لنوع عملك؟
الخلاصة السريعة: اختر حسب المهمة
| نوع العمل | النموذج الأول الذي يستحق التجربة | الدليل | التحفظ الأساسي |
|---|---|---|---|
| إصلاح أخطاء مستودعات برمجية على نمط SWE-Bench Verified | Claude Opus 4.6 | التقارير تضع Opus 4.6 تقريبًا بين 79.2% و80.8% على SWE-Bench Verified [ | لا تقارن هذه النتيجة مباشرة بنتائج SWE-Bench Pro Public كأنهما الاختبار نفسه [ |
| وكلاء برمجة يعملون عبر الطرفية وسطر الأوامر | GPT-5.3-Codex، مع تثبيت إطار تشغيل الوكيل | مقارنة تركز على GPT-5.4 تضع GPT-5.3-Codex عند 77.3% في Terminal-Bench 2.0، متقدمًا على GPT-5.4 عند 75.1% وClaude Opus 4.6 عند 65.4% [ | لوحة Terminal-Bench العامة ترتب أزواج وكيل/نموذج؛ Claude Opus 4.6 يصل إلى 79.8% مع ForgeCode هناك [ |
| اختيار نموذج من عائلة OpenAI فقط | GPT-5.4، لكن بتوقعات واقعية | التقرير نفسه يضع GPT-5.4 عند 57.7% في SWE-Bench Pro مقابل 56.8% لـ GPT-5.3-Codex [ | في Terminal-Bench 2.0 يظهر GPT-5.4 أقل من GPT-5.3-Codex في المقارنة نفسها [ |
| أنظمة كثيرة الأدوات تعتمد على MCP | GPT-5.4 يستحق اختبارًا مستقلًا | تحليل GPT-5.4 يقول إن ميزة البحث عن الأدوات تخفض استخدام رموز MCP بنسبة 47% عبر تحميل تعريفات الأدوات عند الحاجة [ | تقليل الرموز ليس هو نفسه الفوز في اختبار إصلاح الأخطاء أو مهام الطرفية [ |
أين يقع فخ المقارنة؟
SWE-Bench Verified ليس SWE-Bench Pro Public
أقوى حجة لصالح Claude Opus 4.6 تأتي من SWE-Bench Verified. الأرقام المذكورة في المصادر تضعه عند 79.2% أو 79.4% أو 80.8% في هذا المتغير من الاختبار [3][
5][
7][
9].
أما GPT-5.3-Codex فقراءته أصعب؛ لأن المصادر لا تستخدم دائمًا السطر نفسه من SWE-Bench. تحليل GPT-5.4 يذكر GPT-5.3-Codex عند 56.8% في SWE-Bench Pro، بينما تذكر مقارنات أخرى بين Opus وCodex نتيجة 78.2% لـ GPT-5.3-Codex على SWE-Bench Pro Public [3][
6][
7]. هذا ليس سببًا لأخذ متوسط بسيط بين الرقمين، بل تنبيه إلى أن الاختبارات مختلفة. عدة مصادر تؤكد أن SWE-Bench Verified وSWE-Bench Pro Public لا يصلحان للمقارنة المباشرة [
6][
7][
10].
بالنسبة إلى GPT-5.4، أوضح تفوق مباشر له داخل OpenAI في هذه المصادر يبدو صغيرًا: 57.7% في SWE-Bench Pro مقابل 56.8% لـ GPT-5.3-Codex في التحليل نفسه [3]. وهناك ملخص آخر يشير إلى رقم 57.7% لـ GPT-5.4 في SWE-Bench Pro Public، مع التحذير نفسه من أن مقارنة Claude وGPT هنا ليست مقارنة متكافئة تمامًا [
10].
Terminal-Bench يقيس الوكيل والنموذج معًا
قراءة Terminal-Bench 2.0 تحتاج حذرًا خاصًا. لوحة النتائج العامة تعرض أزواجًا من الوكيل والنموذج، لا أداء النموذج الأساسي وحده [1]. في هذه اللوحة، يظهر GPT-5.3-Codex عند 78.4% مع SageAgent، و77.3% مع Droid، و75.1% مع Simple Codex [
1]. ويظهر Claude Opus 4.6 عند 79.8% مع ForgeCode، و75.3% مع Capy، و62.9% مع Terminus 2 [
1].
هذا الفارق داخل النموذج نفسه كافٍ لتغيير الفائز الظاهر. مقارنة GPT-5.4 تضع GPT-5.3-Codex أمام Claude Opus 4.6 في Terminal-Bench 2.0 بنتيجة 77.3% مقابل 65.4% [3]. لكن لوحة النتائج العامة تعرض إدخال ForgeCode/Claude Opus 4.6 عند 79.8%، أي أعلى من إدخال SageAgent/GPT-5.3-Codex عند 78.4% [
1]. الخلاصة العملية: لا تحكم على نموذج في مهام الطرفية إلا بعد تثبيت إطار الوكيل أو اختباره ضمن البيئة نفسها.
قراءة كل نموذج على حدة
Claude Opus 4.6: أقوى إشارة لإصلاح أخطاء المستودعات
إذا كان معيارك الأقرب إلى الواقع هو SWE-Bench Verified، فإن Claude Opus 4.6 هو نقطة البداية الأفضل دعمًا في هذه المصادر. نتائجه المعلنة أو المذكورة تدور حول 79% إلى 81%: 79.2% في تحليل GPT-5.4، و79.4% في مقارنات Opus وCodex، و80.8% في جولات معيارية أخرى [3][
5][
6][
7][
9].
لكن هذا لا يعني أنه ينتصر في كل أنواع البرمجة. قصته في Terminal-Bench مختلطة: بعض المقارنات تذكر 65.4%، بينما تعرض اللوحة العامة 79.8% عندما يقترن Opus 4.6 بـ ForgeCode و62.9% مع Terminus 2 [1][
3][
7][
9]. لذلك هو خيار أول آمن لاختبارات إصلاح المستودعات على نمط Verified، لا بطلًا مطلقًا لكل سيناريو.
GPT-5.3-Codex: أقوى حجة من OpenAI في وكلاء الطرفية
تبرز قيمة GPT-5.3-Codex عندما تشبه المهمة عمل وكيل يقرأ الطرفية، ينفذ أوامر، يعدل ملفات، ويكرر المحاولة. التقارير تذكره عند 77.3% في Terminal-Bench 2.0، ولوحة النتائج العامة تضعه عند 78.4% مع SageAgent، و77.3% مع Droid، و75.1% مع Simple Codex [1][
3][
7][
9].
أما في SWE-Bench، فالصورة تحتاج ضبطًا أدق. بعض المصادر تذكر GPT-5.3-Codex عند 78.2% في SWE-Bench Pro Public، بينما تذكر مصادر أخرى 56.8% في SWE-Bench Pro [3][
6][
7][
9]. وبما أن المصادر نفسها تنبه إلى أن المتغيرات ليست قابلة للتبديل المباشر، فمن الأفضل تقييم GPT-5.3-Codex داخل نسخة الاختبار والإعداد الذي ستستخدمه فعليًا [
6][
7][
10].
GPT-5.4: تحسن محدود في البرمجة، وزاوية أوضح في الأدوات
لا تبدو أرقام GPT-5.4 في هذه المجموعة كقفزة ساحقة في البرمجة. المقارنة المباشرة داخل المصدر نفسه تمنحه تقدّمًا ضيقًا في SWE-Bench Pro على GPT-5.3-Codex، 57.7% مقابل 56.8%، لكنها تضعه أدنى منه في Terminal-Bench 2.0، 75.1% مقابل 77.3% [3].
النقطة الأكثر تميزًا في GPT-5.4 هنا ليست حل الأخطاء بحد ذاته، بل استخدام الأدوات. تحليل GPT-5.4 يقول إن البحث عن الأدوات يخفض استخدام رموز MCP بنسبة 47% عبر تحميل تعريفات الأدوات عند الحاجة بدل وضع كل التعريفات في السياق منذ البداية [3]. في وكلاء البرمجة كثيفة الأدوات قد يكون ذلك مهمًا، لكنه يحتاج قياسًا منفصلًا عن دقة حل المسائل البرمجية.
كيف تقارنها من دون أن تخدعك الأرقام؟
- حدد نسخة الاختبار أولًا. لا تضع SWE-Bench Verified وSWE-Bench Pro وSWE-Bench Pro Public في جدول واحد كأنها مقياس واحد [
6][
7][
10].
- ثبّت إطار الوكيل في مهام الطرفية. لوحة Terminal-Bench 2.0 العامة توضح أن النموذج نفسه قد يحصل على نتائج مختلفة بوضوح حسب الوكيل المرافق له [
1].
- افصل بين دقة البرمجة وكفاءة الأدوات. خفض رموز MCP بنسبة 47% في GPT-5.4 قد يكون مفيدًا للأنظمة كثيفة الأدوات، لكنه ليس ادعاءً بالفوز في SWE-Bench أو Terminal-Bench [
3].
- تعامل مع الترتيبات المختلطة كإشارات اتجاهية. المصادر تدعم فائزين مختلفين تحت اختبارات مختلفة، وهذا بالضبط سبب خطورة إعلان ترتيب عالمي واحد [
1][
3][
6][
7][
10].
الخلاصة
ابدأ بـ Claude Opus 4.6 إذا كان عملك يشبه إصلاح أخطاء مستودعات ضمن SWE-Bench Verified، وأبقِ GPT-5.3-Codex حاضرًا في أي اختبار لوكلاء الطرفية، وجرّب GPT-5.4 إذا كنت تريد أحدث نموذج من OpenAI أو تريد قياس فائدة كفاءته في استخدام الأدوات [1][
3][
5][
7][
9]. الحكم الأكثر أمانًا ليس أن نموذجًا واحدًا يهيمن على البرمجة، بل أن الفائز يتغير بحسب نسخة الاختبار، وإطار الوكيل، وطبيعة العمل الذي ستنفذه فعليًا [
1][
6][
7][
10].




