إن كنت تريد جواباً من سطر واحد — من الأفضل؟ — فالجواب الأدق هو: الأفضل في ماذا؟ تُظهر قائمة Vals AI نماذج DeepSeek V4 وGPT-5.5 بتاريخ 23 أبريل 2026، وKimi K2.6 بتاريخ 20 أبريل، وClaude Opus 4.7 بتاريخ 16 أبريل [19]. لكن الأرقام المتاحة تأتي من BenchLM وVals وإعلانات الشركات وجداول Hugging Face وتحليلات متفرقة، لا من اختبار واحد موحد يضع النماذج الأربعة جنباً إلى جنب بالإعداد نفسه والتكلفة نفسها [
2][
3][
15][
16][
28][
29][
31][
36][
37][
39].
لذلك ليست هذه مقارنة سباق خيل. الأفضل أن نقرأها كخريطة قرار: ما النموذج الأنسب للبرمجة؟ ما الأنسب لوكلاء الأعمال؟ أين تظهر قوة الاستدلال؟ وأين تصبح التكلفة أو الأوزان المفتوحة عاملاً حاسماً؟
لماذا يصعب إعلان فائز مطلق؟
اختبارات القياس، أو البنشماركات، لم تعد امتحاناً واحداً. Kili Technology تشرح أن MMLU وMMLU-Pro وGPQA Diamond وSWE-Bench وTerminal-Bench وGAIA وWebArena وGDPval وتقييمات السلامة تقيس قدرات مختلفة جداً [8]. كما يقسم تقرير AI Index من Stanford HAI الأداء إلى محاور منفصلة مثل MMLU وMATH وGPQA Diamond وMMMU وOSWorld وAIME وSWE-bench Verified [
13].
حتى الاختبارات العامة مثل MMLU فقدت جزءاً من قدرتها على التفريق بين النماذج الأعلى. يوضح Nanonets أن MMLU يُحسب بأسلوب 5-shot، أي مع عرض خمسة أمثلة قبل السؤال الحقيقي، وأن نماذج القمة في 2026 تجمعت فوق نطاق 88% تقريباً، ما يجعل الفروق بينها أقل دلالة [22]. لهذا، رقم إجمالي واحد قد يخفي ما يهمك فعلاً: إصلاح الكود، تحليل وثائق مالية، استخدام الكمبيوتر، خدمة العملاء، أو تكلفة التشغيل.
الصورة السريعة للأرقام المنشورة
| النموذج | أبرز الأرقام المتاحة | أين تبدو القوة؟ | التحفظ الأهم |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100، المركز 2 من 110 في القائمة المؤقتة، والمركز 2 من 14 في القائمة المتحققة؛ SWE-bench Verified 82.4%، FinanceBench 82.7%، وارتفاع MathVista بـ9.5 نقطة [ | البرمجة، الترتيب العام في BenchLM، تحليل الوثائق المالية، والاستدلال البصري الرياضي | معيار Anthropic الداخلي لوكلاء البحث 0.715 ليس قابلاً للمقارنة المباشرة مع GDPval أو Vals [ |
| GPT-5.5 | BenchLM 89/100، المركز 5 من 112 في القائمة المؤقتة، والمركز 2 من 16 في القائمة المتحققة؛ GDPval 84.9%، OSWorld-Verified 78.7%، Tau2-bench Telecom 98.0%؛ Vals Accuracy 67.76% ± 1.79 [ | أعمال المعرفة، استخدام الكمبيوتر، سير عمل خدمة العملاء، والمهام الوكيلية | أرقام OpenAI وBenchLM وVals تنتمي إلى أنظمة تقييم مختلفة [ |
| DeepSeek V4 / V4-Pro-Max | تظهر DeepSeek V4 في Vals بتاريخ 23 أبريل 2026؛ وفي إعداد V4-Pro-Max تُنقل أرقام MMLU-Pro 87.5% وGPQA Diamond 90.1% وGSM8K 92.6% [ | الاستدلال، أسئلة العلوم، والرياضيات | DataCamp يذكر أن هذه الأرقام مبنية على نتائج DeepSeek الداخلية، لذا يجب فصلها عن نتائج مستقلة بالكامل [ |
| Kimi K2.6 | BenchLM 85/100، المركز 12 من 115 مع 27 نتيجة منشورة؛ Vals Accuracy 63.94% ± 1.97، زمن 373.57s، وتكلفة $0.21 لكل اختبار؛ Artificial Analysis Intelligence Index 54 والمركز 4 [ | الأوزان المفتوحة، تكلفة التشغيل، وزمن الاستجابة النسبي | تختلف التسمية بين Kimi 2.6 وKimi K2.6 وK2.6 Thinking بحسب المصدر، لذلك يجب التأكد من الإعداد المقارن [ |
اقرأ الجدول كدليل اتجاهات، لا كعملية جمع نقاط. BenchLM 97/100، وGDPval 84.9%، وVals Accuracy 63.94% ليست أرقاماً من الميزان نفسه.
BenchLM: Claude يتقدم بين النماذج التي لها أرقام مباشرة
إذا حصرنا النظر في صفحات BenchLM المتاحة للنماذج الثلاثة، يتقدم Claude Opus 4.7 بوضوح: فهو في المركز 2 من 110 على القائمة المؤقتة مع نتيجة إجمالية 97/100، وكذلك في المركز 2 من 14 على القائمة المتحققة [3].
GPT-5.5 يأتي في BenchLM بنتيجة 89/100، في المركز 5 من 112 على القائمة المؤقتة، والمركز 2 من 16 على القائمة المتحققة [28]. أما Kimi 2.6 فيسجل 85/100، في المركز 12 من 115، مع 27 نتيجة بنشمارك منشورة [
37].
لكن هذا لا يكفي لإعلان ترتيب رباعي نهائي. أعداد النماذج في كل صفحة مختلفة، ولا توفر المواد هنا رقماً مكافئاً لـ DeepSeek V4 على BenchLM يمكن وضعه في السطر نفسه مع الثلاثة الآخرين [3][
28][
37].
البرمجة: أرقام Claude Opus 4.7 هي الأكثر مباشرة
إذا كان معيارك الأول هو هندسة البرمجيات وإصلاح الكود، فأوضح رقم منشور هنا هو Claude Opus 4.7 على SWE-bench Verified. MindStudio يذكر أن النموذج سجل 82.4%، بزيادة تقارب 11 نقطة عن Opus 4.6 [2]. ويعرض المصدر نفسه FinanceBench عند 82.7%، مع تحسن MathVista بـ9.5 نقطة ضمن تحسينات الرؤية والاستدلال البصري [
2].
بالنسبة إلى GPT-5.5، الأرقام التي تضعها OpenAI في الواجهة ليست SWE-bench، بل GDPval وOSWorld-Verified وTau2-bench Telecom [29]. وبالنسبة إلى Kimi K2.6، يشير GMI Cloud إلى أداء متقدم على SWE-Bench Pro، لكن المقتطف المتاح لا يكفي لتثبيت رقم محدد أو مقارنة موحدة مع النماذج الأربعة [
35]. أما DeepSeek V4، فالأرقام الأكثر تحديداً في هذه الحزمة تتعلق بالاستدلال والرياضيات أكثر من البرمجة [
15][
16].
وكلاء الأعمال واستخدام الكمبيوتر: GPT-5.5 يملك مؤشرات رسمية مفصلة
في مهام العمل المعرفي والأنظمة الوكيلية، تقدم OpenAI أرقاماً واضحة لـ GPT-5.5. تقول الشركة إن النموذج سجل 84.9% في GDPval، وهو اختبار يقيس قدرة الوكلاء على إنتاج أعمال معرفية محددة عبر 44 مهنة [29]. وتذكر أيضاً أنه بلغ 78.7% في OSWorld-Verified، الذي يقيس قدرة النموذج على تشغيل بيئات كمبيوتر حقيقية بنفسه، و98.0% في Tau2-bench Telecom لسير عمل خدمة العملاء المعقدة [
29].
Claude Opus 4.7 لديه أيضاً مؤشر وكيلي، لكن من نوع مختلف. تقول Anthropic إن النموذج تعادل على الصدارة في معيار داخلي لوكلاء البحث بنتيجة 0.715 عبر ست وحدات، وسجل 0.813 في وحدة General Finance مقابل 0.767 لـ Opus 4.6 [7].
المهم هنا ألا نخلط المقاييس. نتيجة GPT-5.5 البالغة 84.9% في GDPval لا تقارن مباشرة بنتيجة Claude البالغة 0.715 في معيار Anthropic الداخلي؛ فكل منهما يقيس شيئاً مختلفاً بطريقة مختلفة [7][
29].
الاستدلال والمعرفة: DeepSeek V4-Pro-Max وKimi K2.6 Thinking في مقارنة جزئية
عند الحديث عن DeepSeek V4، تظهر الأرقام الأكثر تحديداً في إعداد V4-Pro-Max. تنقل DataCamp، اعتماداً على نتائج DeepSeek الداخلية، أن DeepSeek V4-Pro-Max سجل 87.5% في MMLU-Pro، و90.1% في GPQA Diamond، و92.6% في GSM8K [15]. هذه أرقام مهمة، لكنها لا تحمل الوزن نفسه الذي تحمله نتيجة مستقلة موحدة.
صفحة DeepSeek-V4-Pro على Hugging Face تضع DeepSeek V4-Pro-Max وKimi K2.6 Thinking في جدول واحد لبعض اختبارات المعرفة والاستدلال [16]:
| الاختبار | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | الأعلى في هذا الجدول |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
وفق هذا الجدول، يتقدم DeepSeek V4-Pro-Max على Kimi K2.6 Thinking في MMLU-Pro وSimpleQA-Verified وChinese-SimpleQA وHLE، بينما يتقدم Kimi بفارق بسيط في GPQA Diamond [16]. لكن الجدول نفسه لا يقارن مع Claude Opus 4.7 وGPT-5.5؛ بل يضع نماذج أخرى مثل Opus-4.6 Max وGPT-5.4 xHigh، لذلك لا يحسم ترتيب النماذج الأربعة [
16].
التكلفة والزمن: لماذا يلفت Kimi K2.6 النظر؟
في Vals، يظهر GPT-5.5 بدقة 67.76% ± 1.79، وزمن 409.09s، ونافذة سياق 1M [31]. أما Kimi K2.6 فيظهر بدقة 63.94% ± 1.97، وزمن 373.57s، وتكلفة $0.21 لكل اختبار [
39]. عند مقارنة هذين السطرين فقط، تكون الدقة المعروضة أعلى لـ GPT-5.5، بينما يكون الزمن المعروض أقل لـ Kimi K2.6 [
31][
39].
كما أن Kimi K2.6 مهم لمن يفضلون نماذج الأوزان المفتوحة. تصفه Artificial Analysis بأنه نموذج أوزان مفتوحة رائد من Moonshot، وتضعه في المركز 4 على Artificial Analysis Intelligence Index بنتيجة 54 [36]. ومع ذلك، لا يصح جمع نتيجة Artificial Analysis 54 مع BenchLM 85/100 ومع Vals Accuracy 63.94% كأنها نظام نقاط واحد [
36][
37][
39].
كيف تختار عملياً؟
- إذا كان العمل الأساسي هو إصلاح الكود أو أتمتة مهام هندسة البرمجيات، فابدأ بالنظر إلى Claude Opus 4.7؛ فـSWE-bench Verified 82.4% وBenchLM 97/100 هما أوضح رقمين في هذه الحزمة [
2][
3].
- إذا كان الاستخدام يدور حول إنتاج أعمال معرفية، تشغيل بيئات كمبيوتر، أو خدمة عملاء معقدة، فأرقام GPT-5.5 في GDPval وOSWorld-Verified وTau2-bench Telecom هي الأكثر مباشرة [
29].
- إذا كنت تقارن الاستدلال العلمي والرياضي، فضع DeepSeek V4-Pro-Max وKimi K2.6 Thinking جنباً إلى جنب عبر MMLU-Pro وGPQA Diamond وHLE، مع تذكر أن بعض أرقام DeepSeek منسوبة إلى نتائج داخلية [
15][
16].
- إذا كانت الأوزان المفتوحة والتكلفة وزمن التشغيل عوامل حاسمة، فمؤشرات Kimi K2.6 في Artificial Analysis وVals تستحق الفحص قبل قرار النشر [
36][
39].
- لا تعتمد على MMLU وحده؛ فالنماذج العليا أصبحت متقاربة جداً فيه، ما يقلل فائدته في التمييز العملي بينها [
22].
الخلاصة
الصورة العادلة هي أن Claude Opus 4.7 يبدو أقوى في أرقام البرمجة وBenchLM، وGPT-5.5 يملك مؤشرات مفصلة في أعمال الوكلاء واستخدام الكمبيوتر، وDeepSeek V4-Pro-Max يبرز في أرقام الاستدلال والرياضيات المنشورة، بينما يلفت Kimi K2.6 الانتباه في الأوزان المفتوحة والتكلفة والزمن [2][
3][
15][
16][
28][
29][
36][
37][
39].
لكن لا توجد، في المواد المتاحة، مقارنة موحدة تكفي لترتيب النماذج من الأول إلى الرابع بثقة. القرار العملي يجب أن يبدأ من هذه الأرقام، ثم يُستكمل باختبار صغير على مهامك الفعلية: مستودعات الكود، ملفاتك المالية، بيئة المتصفح أو الكمبيوتر، سيناريوهات خدمة العملاء، أو تشغيل وكيل طويل المدى. في 2026، السؤال الأذكى ليس: من الفائز؟ بل: أي نموذج يفوز في مهمتي؟ [8][
22].




