عند مقارنة هذه النماذج الأربعة، السؤال الأهم ليس: «من الأفضل؟» بل: «أي نموذج أنسب لنوع العمل الذي ستدفع مقابله؟». فاختبار وكيل يعمل داخل سطر الأوامر يختلف عن إصلاح عطل في مستودع GitHub، وكلاهما يختلف عن قراءة مستندات وصور أو تشغيل آلاف المحاولات منخفضة التكلفة.
الأهم أيضًا هو جودة الدليل. لدى OpenAI أرقام رسمية منشورة عن GPT-5.5 في Terminal-Bench 2.0 وSWE-Bench Pro [24]. ولدى DeepSeek إعلان رسمي عن إتاحة V4-Pro وV4-Flash عبر الواجهة البرمجية [
25]. أما أقوى المقارنات المباشرة المتاحة هنا حول Claude Opus 4.7 وKimi K2.6 فتأتي غالبًا من مصادر تحليلية طرف ثالث، لذلك ينبغي قراءتها بحذر [
4][
6].
الخلاصة السريعة حسب الاستخدام
- إصلاح الأكواد وقضايا GitHub: الأرقام المذكورة في SWE-Bench وSWE-Bench Verified وCursorBench تميل إلى Claude Opus 4.7 مقارنةً بـGPT-5.5 [
4].
- وكلاء الطرفية واستخدام الأدوات: GPT-5.5 هو الأكثر وضوحًا من حيث التوثيق العام، مع 82.7% في Terminal-Bench 2.0 وفق OpenAI [
24].
- البرمجة مع حساسية عالية للتكلفة: Kimi K2.6 موصوف من CodeRouter كفائز في معادلة السعر/الجودة، بسعر $0.60 للإدخال و$4.00 للإخراج لكل مليون توكن [
6].
- DeepSeek V4: المتاح رسميًا هو V4-Pro وV4-Flash عبر DeepSeek API، لكن المصادر المستخدمة لا تقدم جدولًا رسميًا كاملًا يقارنه مباشرةً بالنماذج الثلاثة الأخرى في كل اختبار [
25].
ما الذي تثبته المصادر فعلًا؟
تصف OpenAI اختبار Terminal-Bench 2.0 بأنه يقيس سير عمل معقدًا في سطر الأوامر، يتطلب تخطيطًا وتكرارًا وتنسيقًا بين الأدوات؛ وتقول إن GPT-5.5 يحقق فيه 82.7% [24]. كما تذكر أن SWE-Bench Pro يقيس حل قضايا GitHub الواقعية، وأن GPT-5.5 يسجل فيه 58.6% [
24].
أما DeepSeek، فتؤكد في سجل تغييرات واجهتها البرمجية أن V4-Pro وV4-Flash أصبحا متاحين عبر واجهة OpenAI ChatCompletions وكذلك واجهة Anthropic، باستخدام معاملي النموذج deepseek-v4-pro وdeepseek-v4-flash [25]. هذا يثبت الإتاحة عبر API، لكنه لا يثبت تفوقًا معياريًا بحد ذاته.
بالنسبة إلى Claude Opus 4.7 وKimi K2.6، فإن أرقام المقارنة المباشرة في هذه المادة تعتمد أساسًا على LushBinary وCodeRouter: الأولى تعرض أرقام Claude مقابل GPT، والثانية تعرض إشارات عن أسعار Kimi وDeepSeek وبعض تموضعهما في السوق [4][
6].
جدول المقارنة: الأرقام المتاحة فقط
تعني عبارة «غير متاح» أن المصادر المستخدمة لا تتضمن رقمًا مباشرًا كافيًا لهذه الخانة.
| الاختبار / المعيار | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | غير متاح | على مستوى GPT-5.5 وفق CodeRouter [ | 64.3% [ | 58.6% [ |
| SWE-Bench Verified | غير متاح | غير متاح | 87.6% [ | نحو 85% [ |
| Terminal-Bench 2.0 | غير متاح | غير متاح | نحو 72% [ | 82.7% [ |
| GDPval / أعمال معرفية | غير متاح | غير متاح | نحو 78% [ | 84.9% [ |
| OSWorld-Verified / استخدام الحاسوب | غير متاح | غير متاح | نحو 65% [ | 78.7% [ |
| GPQA Diamond | غير متاح | غير متاح | 94.2% [ | نحو 93% [ |
| CursorBench | غير متاح | غير متاح | 70% [ | نحو 65% [ |
| Tau2-bench Telecom | غير متاح | غير متاح | نحو 90% [ | 98.0% [ |
| Vision & Document Arena | غير متاح | غير متاح | المركز الأول وفق تقرير Arena [ | غير متاح |
| السعر / السياق | V4 Flash: $0.14 إدخال و$0.28 إخراج لكل مليون توكن، مع سياق 1M [ | $0.60 إدخال و$4.00 إخراج لكل مليون توكن [ | غير متاح | غير متاح |
البرمجة: Claude Opus 4.7 أقوى في الأرقام المتاحة، وKimi K2.6 مرشح التكلفة
إذا كان معيارك الأول هو حل مشكلات البرمجة، فالأرقام المذكورة ترجّح Claude Opus 4.7. يذكر LushBinary أن Claude Opus 4.7 يحقق 64.3% في SWE-Bench Pro مقابل 58.6% لـGPT-5.5، بينما تؤكد OpenAI رقم GPT-5.5 نفسه عند 58.6% [4][
24]. كما تضع بيانات LushBinary Claude Opus 4.7 أمام GPT-5.5 في SWE-Bench Verified وCursorBench [
4].
لكن Kimi K2.6 لا يخرج من الصورة. فـCodeRouter يضعه في SWE-Bench Pro على مستوى GPT-5.5، مع أسعار أقل بكثير: $0.60 للإدخال و$4.00 للإخراج لكل مليون توكن [6]. هذه ليست بديلًا عن اختبار داخلي، لكنها إشارة مهمة للفرق التي تشغّل وكلاء برمجة بكثافة وتدفع مقابل محاولات متعددة ومراجعات وإعادات تشغيل.
أما DeepSeek V4، فلا تسمح المصادر الرسمية المتاحة هنا باستخلاص رقم برمجي مباشر. المؤكد فقط أن V4-Pro وV4-Flash متاحان عبر DeepSeek API [25].
وكلاء الطرفية: GPT-5.5 هو الأكثر توثيقًا
في سيناريوهات الطرفية، مثل تنفيذ أوامر Shell، استخدام أدوات تطوير، أو تنسيق خطوات متعددة، يبدو GPT-5.5 نقطة البداية الأقوى من حيث الدليل المنشور. تقول OpenAI إنه يسجل 82.7% في Terminal-Bench 2.0، وهو اختبار لسير عمل معقد في سطر الأوامر يتطلب تخطيطًا وتكرارًا وتنسيقًا بين الأدوات [24]. وفي المقابل، تضع LushBinary Claude Opus 4.7 عند نحو 72% في الاختبار نفسه [
4].
الصورة نفسها تظهر في مؤشرات الأعمال المعرفية واستخدام الحاسوب لدى المصدر الثانوي: GPT-5.5 عند 84.9% في GDPval مقابل نحو 78% لـClaude Opus 4.7، وعند 78.7% في OSWorld-Verified مقابل نحو 65% لـClaude Opus 4.7 [4]. لذلك، إذا كان المنتج يعتمد على وكيل ينفذ أوامر، ينسّق أدوات، ويتعامل مع واجهات أو بيئات عمل، فـGPT-5.5 هو الخيار الأفضل توثيقًا كبداية.
الرؤية والمستندات: أفضل إشارة إيجابية لدى Claude Opus 4.7
في مهام الصور والمستندات لا توجد في المصادر المستخدمة مصفوفة كاملة للنماذج الأربعة. أقوى إشارة متاحة تخص Claude Opus 4.7: تقرير Arena المذكور عبر Latent Space/AINews يضعه في المركز الأول في Vision & Document Arena [1].
وتضيف LLM Stats أن Claude Opus 4.7 يستطيع معالجة صور يصل طول ضلعها الأكبر إلى 2,576 بكسل، أو نحو 3.75 ميغابكسل، بينما يدعم GPT-5.5 إدخال الصور ويُذكر هناك مع نتائج MMMU-Pro تبلغ 81.2% من دون أدوات و83.2% مع أدوات [5]. هذه أرقام مفيدة لتقدير الفارق بين Claude وGPT-5.5 في الرؤية، لكنها لا تكفي لمقارنة رباعية مباشرة مع Kimi K2.6 وDeepSeek V4.
السعر مقابل الأداء: لا تتجاهل Kimi K2.6 وDeepSeek V4 Flash
أقوى حجة سعرية في هذه المصادر تخص Kimi K2.6. يصفه CodeRouter بأنه فائز في معادلة السعر/الجودة، ويذكر سعر $0.60 للإدخال و$4.00 للإخراج لكل مليون توكن [6].
وفي المصدر نفسه يظهر DeepSeek V4 Flash كخيار عمل منخفض التكلفة، بسعر $0.14 للإدخال و$0.28 للإخراج لكل مليون توكن، مع سياق 1M [6]. كما تؤكد وثائق DeepSeek الرسمية أن V4-Pro وV4-Flash متاحان عبر الواجهات البرمجية الحالية [
25].
لكن السعر وحده لا يعني الفوز. النموذج الأرخص قد يكون ممتازًا للتجارب الكثيفة أو المهام منخفضة المخاطر، بينما في الإنتاج الحقيقي يجب حساب تكلفة النتيجة المقبولة: عدد المحاولات، الأخطاء، وقت المراجعة البشرية، وإعادة التشغيل.
كيف تختبر النماذج الأربعة بعدل؟
لا تعتمد على ترتيب عام وحده. ابنِ مجموعة تقييم صغيرة من واقع عملك: قضايا حقيقية من مستودعاتك، مستندات فعلية، أو مهام وكيل تشبه ما سيحدث في المنتج. قِس ليس فقط جودة أول إجابة، بل أيضًا تكلفة النتيجة المقبولة، عدد المحاولات الفاشلة، شدة الأخطاء، وزمن التنفيذ.
ومن المهم فصل الأرقام الرسمية عن بيانات الطرف الثالث. في هذه المقارنة، لدى GPT-5.5 أرقام رسمية من OpenAI في Terminal-Bench 2.0 وSWE-Bench Pro [24]. ولدى DeepSeek V4 إثبات رسمي للإتاحة عبر API [
25]. أما أقوى بيانات Claude Opus 4.7 وKimi K2.6 المقارنة هنا فتأتي من مصادر خارجية [
4][
6].
الحكم النهائي
لا يوجد فائز واحد يصلح لكل شيء. Claude Opus 4.7 يتقدم في مؤشرات البرمجة المتاحة، وGPT-5.5 هو الأكثر دعمًا بالأرقام في الطرفية واستخدام الحاسوب، وKimi K2.6 يحمل أوضح رواية سعر/جودة، بينما DeepSeek V4 مرشح API يحتاج إلى تقييمك الداخلي قبل أي قرار إنتاجي [4][
24][
6][
25].




