الطريقة الأكثر أمانا لقراءة هذه المقارنة ليست أن نسأل: من هو النموذج الأقوى؟ بل: أي نموذج أختبره أولا لهذه المهمة تحديدا؟ فالاختبارات المنشورة لا تضع GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6 دائما داخل البيئة نفسها وبالأدوات نفسها وطريقة التصحيح نفسها. لذلك يصعب تحويل الأرقام إلى ترتيب واحد عادل من الأول إلى الرابع [1][
2][
5][
6].
مع ذلك، هناك صورة عملية واضحة: إذا كان العمل يدور حول أوامر الطرفية وسلاسل تنفيذ طويلة داخل بيئة تطوير، فابدأ بـGPT-5.5. إذا كان المطلوب إصلاح مشكلات GitHub واقعية أو مراجعة كود، فClaude Opus 4.7 مرشح أول قوي. إذا كان السياق طويلا ومتعدد الوسائط، فضع Kimi K2.6 في قائمة التجربة. وإذا كانت التكلفة هي الهاجس الأكبر في استدعاءات ضخمة، فDeepSeek V4 يستحق الفحص، لكن مع طبقة تحقق صارمة.
الخلاصة السريعة حسب نوع العمل
- أتمتة الطرفية والوكيل البرمجي طويل النفس: GPT-5.5 هو المرشح الأول. تقول OpenAI إنه حقق 82.7% في Terminal-Bench 2.0، بينما تظهر جداول منشورة Claude Opus 4.7 عند 69.4% وKimi K2.6 عند 66.7% [
19][
8][
13][
6].
- إصلاح الكود ومشكلات GitHub الواقعية: Claude Opus 4.7 هو المرشح الأقوى كبداية. تذكر المصادر أنه حقق 64.3% في SWE-Bench Pro و87.6% في SWE-Bench Verified، متقدما على GPT-5.5 في SWE-Bench Pro حيث سجل 58.6% [
27][
19].
- سياق طويل مع نصوص وصور وفيديو: Kimi K2.6 يستحق التجربة. تذكر مصادر المقارنة أنه يدعم إدخال النص والصورة والفيديو، مع مسار سياق 256k [
7].
- استدعاءات API ضخمة وحساسة للسعر: DeepSeek V4 لافت من ناحية التكلفة. وفق Mashable، سعره 1.74 دولار لكل مليون توكن إدخال و3.48 دولار لكل مليون توكن إخراج، مقابل 5 دولارات إدخال و30 دولارا إخراجا في GPT-5.5، و5 دولارات إدخال و25 دولارا إخراجا في Claude Opus 4.7 [
3].
جدول المقارنة: ماذا تقول الأرقام المنشورة؟
علامة — في الجدول لا تعني أن النموذج عاجز عن المهمة، بل أن المصادر المتاحة هنا لا تقدم رقما مباشرا قابلا للمقارنة في الاختبار نفسه.
| الاختبار | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | كيف نقرأ النتيجة؟ |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7% [ | — | في سير العمل داخل الطرفية وسطر الأوامر، الرقم المنشور لصالح GPT-5.5 بوضوح. |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | — | في إصلاح الكود ومشكلات GitHub الواقعية، Claude Opus 4.7 يتقدم. |
| SWE-Bench Verified | — | 87.6% [ | 80.2% [ | — | الأرقام المتاحة هنا تقارن أساسا Claude وKimi، مع تقدم Claude. |
| GPQA Diamond | 93.6% [ | 94.2% [ | — | — | الفارق صغير جدا، لكن الرقم المنشور يميل قليلا إلى Claude. |
| HLE with tools | 52.2% [ | 54.7% [ | 54.0% [ | — | Claude وKimi يظهران أرقاما أعلى، لكن رقم Kimi قد لا يكون من شروط مقارنة مطابقة [ |
| BrowseComp | 84.4% [ | 79.3% [ | — | — | في التصفح والبحث عبر الويب، الرقم المنشور لصالح GPT-5.5. |
| OSWorld-Verified | 78.7% [ | 78.0% [ | — | — | الفارق بين GPT-5.5 وClaude Opus 4.7 محدود جدا. |
| MCP Atlas | 75.3% [ | 79.1% [ | — | — | في اختبار الربط بالأدوات عبر MCP، يتقدم Claude Opus 4.7 في الأرقام المنشورة. |
GPT-5.5: الأفضل بداية عندما تدور المهمة داخل الطرفية
تصف OpenAI نموذج GPT-5.5 بأنه أقوى نماذجها في البرمجة الوكيلية حتى الآن. في Terminal-Bench 2.0، وهو اختبار يقيس سير عمل معقدا في سطر الأوامر يتطلب تخطيطا وتكرارا وتنسيقا بين الأدوات، سجل النموذج 82.7%. وفي SWE-Bench Pro، الذي يقيس حل مشكلات GitHub واقعية، سجل 58.6% [19].
هذا يجعل GPT-5.5 خيارا منطقيا عندما تكون المهمة شبيهة بجلسة عمل حقيقية داخل الطرفية: تشغيل أوامر، تعديل ملفات، إعادة إنتاج فشل في CI، اختبار إصلاحات، ثم تكرار المحاولة. لكن لا ينبغي تعميم ذلك على كل أنواع البرمجة. ففي SWE-Bench Pro تحديدا، الرقم المنشور لـClaude Opus 4.7 هو 64.3%، أي أعلى من 58.6% المسجلة لـGPT-5.5 [19][
27].
Claude Opus 4.7: مرشح قوي لإصلاح الكود والمراجعة العميقة
تظهر قوة Claude Opus 4.7 بوضوح في اختبارات إصلاح البرمجيات. تذكر DataCamp أن النموذج قُيم عبر 14 اختبارا تشمل البرمجة، الاستدلال، استخدام الأدوات، استخدام الحاسوب، والاستدلال البصري. وفي الجزء البرمجي، سجل 64.3% في SWE-Bench Pro و87.6% في SWE-Bench Verified [27].
في المقارنة المباشرة مع GPT-5.5، يتقدم Claude Opus 4.7 أيضا في GPQA Diamond بنتيجة 94.2% مقابل 93.6%، وفي MCP Atlas بنتيجة 79.1% مقابل 75.3% [8][
13]. في المقابل، يتقدم GPT-5.5 في Terminal-Bench 2.0 وBrowseComp بحسب الأرقام نفسها [
8][
13][
19].
بمعنى آخر: Claude Opus 4.7 ليس بالضرورة الخيار الأول لكل وكيل يعمل في الطرفية، لكنه يبدو خيارا قويا عندما تكون المهمة أقرب إلى فهم قاعدة كود، إصلاح خلل، مراجعة تغيير، أو تنفيذ تعديل هندسي بدقة.
Kimi K2.6: نقطة قوته ليست الرقم وحده بل السياق الطويل والمتعدد الوسائط
تظهر لـKimi K2.6 أرقام جيدة في اختبارات برمجية منشورة: 58.6% في SWE-Bench Pro و80.2% في SWE-Bench Verified، كما تذكر مصادر أخرى 66.7% في Terminal-Bench 2.0 و54.0% في HLE with tools [1][
6]. لكن يجب قراءة هذه النتائج بحذر. فبعض الشروحات تربط أرقام K2.6 ببطاقة نموذج Moonshot AI الرسمية، وتذكر أن SWE-Bench Pro استخدم هارنس داخليا لدى Moonshot [
6].
لذلك، حتى إذا ظهر أن Kimi K2.6 وGPT-5.5 يملكان الرقم نفسه في SWE-Bench Pro عند 58.6%، فلا يصح افتراض أنهما تعادلا تحت شروط اختبار متطابقة تماما [1][
6][
19]. القيمة العملية الأوضح في Kimi K2.6 هي أنه يدعم، بحسب مصادر المقارنة، إدخال النص والصورة والفيديو ومسار سياق 256k [
7].
إذا كان منتجك يتعامل مع ملفات طويلة، أو مستندات مرفقة بصور، أو مقاطع فيديو تحتاج إلى ربطها بنصوص وتعليمات، فKimi K2.6 يستحق اختبارا داخليا منفصلا بدلا من الحكم عليه من جدول أرقام مختلط.
DeepSeek V4: السعر مغر، لكن لا بد من اختبار الدقة داخليا
في هذه المقارنة، لا تتوافر ضمن المصادر المعروضة أرقام مباشرة وكافية لوضع DeepSeek V4 في الصفوف نفسها الخاصة بـTerminal-Bench أوSWE-Bench Pro أوSWE-Bench Verified أوGPQA Diamond. لذلك ستكون أي مقارنة رقمية مباشرة مع GPT-5.5 أوClaude Opus 4.7 ناقصة.
لكن DeepSeek V4 يستحق الاهتمام من زاويتين: البنية والتكلفة. تذكر DataCamp أن DeepSeek V4 يستخدم بنية Mixture of Experts، وأن نموذج Pro يحتوي على 1.6 تريليون معامل إجمالي مع 49 مليار معامل نشط، بينما يحتوي نموذج Flash على 284 مليار معامل إجمالي مع 13 مليار معامل نشط [4]. ومن ناحية السعر، تنقل Mashable أن DeepSeek V4 يكلف 1.74 دولار لكل مليون توكن إدخال و3.48 دولار لكل مليون توكن إخراج، وهو أقل من أسعار GPT-5.5 وClaude Opus 4.7 المذكورة في المصدر نفسه [
3].
لكن جانب الدقة مهم جدا. تذكر Artificial Analysis أن DeepSeek V4 Pro Max سجل -10 في AA-Omniscience، بتحسن 11 نقطة عن V3.2، وأن V4 Flash Max سجل -23. ويضيف المصدر أن معدل الهلوسة في V4 Pro وV4 Flash مرتفع جدا، عند 94% و96% على التوالي، بمعنى أنهما يميلان إلى الإجابة حتى عندما لا يعرفان [2].
الخلاصة هنا: DeepSeek V4 مناسب للفحص في سيناريوهات كثيفة الاستدعاءات ومنخفضة الهامش، أو في مسارات داخلية يمكن التحقق من مخرجاتها لاحقا. أما في المنتجات التي تكون فيها الإجابة الخاطئة مكلفة، فالسعر وحده لا يكفي؛ يلزم اختبار داخلي، وقواعد تحقق، واكتشاف للفشل قبل الاعتماد عليه [2][
3][
4].
دليل اختيار سريع حسب الاستخدام
| الاستخدام | النموذج الذي يستحق الاختبار أولا | السبب |
|---|---|---|
| أتمتة طويلة داخل الطرفية، وكلاء shell، إعادة إنتاج فشل CI | GPT-5.5 | سجل GPT-5.5 في Terminal-Bench 2.0 نسبة 82.7%، مقابل 69.4% لـClaude Opus 4.7 و66.7% لـKimi K2.6 في الأرقام المنشورة [ |
| إصلاح مشكلات GitHub، تعديل كود واقعي، مهام SWE-Bench | Claude Opus 4.7 | سجل Claude Opus 4.7 نسبة 64.3% في SWE-Bench Pro و87.6% في SWE-Bench Verified [ |
| التصفح والبحث عبر الويب | GPT-5.5 | في BrowseComp، تظهر الأرقام GPT-5.5 عند 84.4% وClaude Opus 4.7 عند 79.3% [ |
| ربط الأدوات وبيئات MCP | Claude Opus 4.7 | في MCP Atlas، يظهر Claude Opus 4.7 عند 79.1% مقابل 75.3% لـGPT-5.5 [ |
| سياق طويل ومتعدد الوسائط | Kimi K2.6 | تذكر مصادر المقارنة أن Kimi K2.6 يدعم النص والصورة والفيديو ومسار سياق 256k [ |
| استدعاءات API ضخمة وحساسة للسعر | DeepSeek V4 | أسعار DeepSeek V4 المنشورة أقل من GPT-5.5 وClaude Opus 4.7، لكن يجب موازنة ذلك مع تقرير Artificial Analysis عن الهلوسة المرتفعة [ |
لماذا يصعب إعلان ترتيب نهائي؟
أولا، لا توجد في المصادر المتاحة مقارنة مستقلة كافية تضع النماذج الأربعة في البيئة نفسها: نفس المطالبات، نفس أدوات التصفح أو التنفيذ، نفس ميزانية الاستدلال، ونفس المصحح. GPT-5.5 وClaude Opus 4.7 يملكان أرقاما مشتركة أكثر نسبيا، لكن Kimi K2.6 تظهر له أرقام من بطاقة نموذج أو هارنس داخلي، وDeepSeek V4 يفتقر إلى عدد كاف من الصفوف المشتركة في هذه الاختبارات [1][
2][
5][
6].
ثانيا، حتى عندما يتكرر اسم الاختبار نفسه، قد تختلف طريقة تشغيله. أحد التجميعات يذكر أن نتائج GPT-5.5 وClaude Opus 4.7 قابلة للمقارنة من حيث الشكل، لا من حيث المنهجية بالضرورة [5]. كما توضح Anthropic أنها استخدمت في Terminal-Bench 2.0 هارنس Terminus-2 مع تعطيل التفكير وشروط موارد محددة [
31].
ثالثا، نتيجة الاختبار ليست المنتج كله. عند إدخال نموذج في خدمة حقيقية، ستحتاج إلى قياس الدقة، وطريقة الفشل، ومعدل الهلوسة، والكمون، والتكلفة، وثبات استدعاء الأدوات، وسياسات الأمان، وقابلية إعادة إنتاج السجلات. يشير ExplainX أيضا إلى أن تعريفات لوحات الصدارة والمطالبات وسياسات الأدوات قد تغير النتائج، لذلك لا ينبغي أن تحل الجداول العامة محل هارنس التقييم الداخلي [28].
الحكم العملي
إذا كنت تريد نقطة بداية لا أكثر، فالصورة الحالية تقول: GPT-5.5 لأتمتة الطرفية والبرمجة الوكيلية، Claude Opus 4.7 لإصلاح الكود ومهام SWE-Bench، Kimi K2.6 للسياق الطويل المتعدد الوسائط، وDeepSeek V4 للاستدعاءات الكثيفة الحساسة للتكلفة [19][
27][
7][
3].
لكن لا تجعل هذه الخلاصة بديلا عن اختبارك الخاص. الفائز الحقيقي في بيئتك سيتحدد بما تسمح له به من أدوات، وبحجم السياق، وبسعر الخطأ، وبطريقة قياسك للفشل قبل قياسك للنجاح [5][
28][
31].




