| متوسطة إلى منخفضة |
| Kimi K2.6 | تظهر له إشارات جزئية، منها 0.91 في GPQA على LLM Stats ووجوده ضمن أفضل 10 نماذج في Quality Index على WhatLLM، لكن التغطية متعددة الاختبارات غير كافية | منخفضة |
اختبارات الأداء ليست شيئاً واحداً. SWE-bench يقيس قدرة النموذج على حل مهام هندسة برمجيات قريبة من الواقع، وتصفه Vals AI بأنه اختبار لحل مهام برمجية إنتاجية . أما SWE-bench Pro فيجب التعامل معه كاختبار منفصل، لأن الورقة الخاصة به تقدمه كنسخة أصعب بكثير لمهام هندسة برمجيات طويلة الأفق
.
الأمر نفسه ينطبق على الاستدلال العلمي. GPQA Diamond مهم، لكنه لم يعد يفرّق بوضوح بين كل النماذج الرائدة. TNW تشير إلى أن نتائج نماذج مثل Opus 4.7 وGPT-5.4 Pro وGemini 3.1 Pro في GPQA Diamond متقاربة إلى حد أن الفروق تدخل في ضجيج القياس . أما MMLU فيحتاج حذراً أكبر: Nanonets تقول إن النماذج العليا في 2026 تجاوزت 88%، ولذلك أصبح الاختبار مشبعاً ولا يميز القادة بدقة
.
كذلك لا ينبغي مساواة مصدر رسمي من المختبر بصفحة تجميع أو نقاش مجتمعي. BenchLM، مثلاً، يوضح أن ملف Claude Opus 4.7 مستبعد من لوحة الترتيب العامة لأنه لا يملك بعد تغطية عامة غير مولدة كافية لترتيبه بأمان . هذه الملاحظة لا تضعف كل أرقام Claude، لكنها تذكرنا بأن قوة الدليل تختلف من سطر إلى آخر.
Claude Opus 4.7 هو النموذج الأكثر دعماً بالمصادر العامة في هذه المقارنة. الإشارة الرسمية الأبرز تأتي من Anthropic، إذ تقول الشركة إن Opus 4.7 تعادل في أفضل نتيجة إجمالية في اختبارها الداخلي لـ research-agent بدرجة 0.715، وحقق أكثر أداء طويل السياق اتساقاً بين النماذج التي اختبرتها . وبما أن هذا اختبار داخلي، فلا يصح التعامل معه كدليل مستقل، لكنه يوضح بجلاء أن التركيز هنا على العمل متعدد الخطوات.
الإشارة الخارجية الأوضح تأتي من SWE-bench. تضع Vals AI نموذج Claude Opus 4.7 في المركز الأول بنسبة 82.00% في صفحة محدثة بتاريخ 24 أبريل 2026 . وتورد Vellum 87.6% في SWE-bench Verified و64.3% في SWE-bench Pro
. أما LMCouncil فيعرض 83.5% ± 1.7 لـ Claude Opus 4.7 في SWE-bench Verified
.
الاستنتاج الصحيح ليس اختيار رقم واحد وتجاهل البقية، بل القول إن Claude يظهر في منطقة القيادة أو قريباً منها عبر عدة مصادر مرتبطة بهندسة البرمجيات. لكن SWE-bench وSWE-bench Verified وSWE-bench Pro ليست الاختبار نفسه، ويمكن أن تختلف النتائج حسب المنهجية والتاريخ والعينة والإعداد .
في الاستدلال العلمي، يظهر Claude Opus 4.7 بنسبة 94.2% في GPQA Diamond وفق O-Mega وVellum وTNW . ومع ذلك، تحذر TNW من أن هذا الاختبار أصبح مضغوطاً جداً بين النماذج الرائدة، ولذلك لا يكفي GPQA وحده لإعلان فائز شامل
.
GPT-5.5 يبرز بقوة في أرقام الاستدلال المسترجعة. O-Mega يورد له 92.4% في MMLU، و93.6% في GPQA Diamond، و85.0% في ARC-AGI-2، و95.0% في ARC-AGI-1 . كما تضعه Vellum عند 93.6% في GPQA Diamond، خلف Claude Opus 4.7 في ذلك الجدول المحدد
. ويضعه BenchLM ضمن الطبقة العليا، مع 89/100 في لوحة ترتيب مؤقتة، والمركز 2 من 16 في لوحة ترتيب موثقة
.
نقطة التحفظ الأساسية هي التتبع. في المصادر المتاحة لهذه المقارنة، يظهر GPT-5.5 في مقالات ومجمّعات وصفحات اختبارات، لكن لم تُسترجع بطاقة رسمية من OpenAI تقدم حزمة أرقام قابلة للمقارنة بما توفره Anthropic عن Claude Opus 4.7. Appwrite تذكر إطلاق GPT-5.5 في 24 أبريل 2026، بينما تدرج Vals نموذج openai/gpt-5.5 بتاريخ إطلاق 23 أبريل 2026 وبمؤشر Vals Index قدره 67.76% ± 1.79 . هذه مفيدة، لكنها لا تعوض بطاقة اختبار رسمية كاملة.
للعرض التنفيذي، يستحق GPT-5.5 أن يوضع كمنافس من الدرجة الأولى في الاستدلال العام، خصوصاً بسبب GPQA وARC-AGI. لكنه لا يصبح فائزاً شاملاً إذا كان معيار القرار هو توافر دليل عام ومتجانس بين كل النماذج .
DeepSeek هو أكثر الحالات التباساً من ناحية النسخة. المصادر المسترجعة تتنقل بين DeepSeek V4 وDeepSeek V4 Pro وDeepSeek V4 Pro High، ولذلك لا يصح نقل رقم من نسخة إلى أخرى تلقائياً .
يعرض Hugging Face نقاشاً مجتمعياً لـ DeepSeek-V4-Pro يتضمن نتائج تقييم في GPQA وGSM8K وHLE وMMLU-Pro وSWE-bench Pro وSWE-bench Verified وTerminal-Bench 2.0 . ويورد BenchLM لـ DeepSeek V4 Pro High درجة 83.8/100 في Agentic، و88.8/100 في Coding، و72.1/100 في Knowledge
. أما NxCode فيذكر أن DeepSeek V4 يحقق 81% في SWE-bench و97% في Needle-in-a-Haystack عند 1M tokens، لكنه يربط قراءة رقم 97% بضرورة التحقق المستقل
.
تقدم Redreamality إشارة أخرى إيجابية للبرمجة الصرفة: LiveCodeBench 93.5 وCodeforces 3206 لـ DeepSeek V4 . لكن المصدر نفسه يلخص أن النماذج المغلقة الرائدة لا تزال تتصدر في العمل الوكيلي طويل الأفق مثل SWE-bench Pro وTerminal-Bench 2.0
.
الخلاصة العملية: DeepSeek V4/V4 Pro يستحق اختباراً داخلياً، خصوصاً إذا كان الفريق يهتم بالتحكم التقني أو التكلفة أو الأوزان المفتوحة أو التشغيل المحلي. لكنه، وفق هذه المصادر، لا يملك بعد صلابة عامة تضاهي ما لدى Claude في SWE-bench وفي إشارات Anthropic الرسمية .
لا ينبغي حذف Kimi K2.6 من النقاش، لكن لا يصح تقديمه وكأنه يملك مستوى التغطية نفسه. LLM Stats يدرجه عند 0.91 في GPQA، وWhatLLM يضعه ضمن أفضل 10 نماذج بحسب Quality Index . هذه إشارات مفيدة، لكنها لا تكفي لمقارنة كاملة مع Claude Opus 4.7 وGPT-5.5 وDeepSeek V4/V4 Pro.
هناك أيضاً خطأ منهجي يجب تجنبه: لا نستبدل Kimi K2.6 بصمت بنتائج Kimi K2.5. Simon Willison ينقل في فبراير 2026 نتيجة لـ Kimi K2.5 في SWE-bench Verified، لكن ذلك يخص نسخة أخرى من النموذج . إذا أردنا مقارنة صارمة، فيجب أن يظهر Kimi K2.6 تحت خانة الأدلة غير الكافية أو بانتظار تحقق متعدد الاختبارات.
أفضل طريقة لتحويل هذه البيانات إلى عرض تنفيذي هي فصل الأداء عن جودة الدليل. شريحة أولى يمكن أن تعرض التوصية حسب حالة الاستخدام، وشريحة ثانية تعرض جدول الأرقام، وثالثة تشرح القيود المنهجية.
الرسالة الأساسية بسيطة: Claude Opus 4.7 هو القائد الأفضل دعماً في البرمجة والعمل الوكيلي؛ GPT-5.5 هو أقوى منافس في الاستدلال العام؛ DeepSeek V4/V4 Pro بديل تقني واعد لكنه يحتاج اختباراً داخلياً؛ وKimi K2.6 ما زال ينتظر بيانات عامة قابلة للمقارنة.
ثلاث ملاحظات منهجية ضرورية. أولاً، لا تخلط SWE-bench وSWE-bench Verified وSWE-bench Pro كما لو كانت اختباراً واحداً، لأن SWE-bench Pro مصمم لمهام برمجية أطول وأصعب . ثانياً، لا تبنِ قراراً كبيراً على MMLU وحده، لأن النماذج العليا متقاربة فوق 88%
. ثالثاً، ضع بجوار كل رقم نوع المصدر: رسمي، لوحة ترتيب، مجمّع، مجتمع، أو ادعاء يحتاج تحققاً.
إذا كان الهدف اختيار نموذج لعرض تنفيذي بأدلة يمكن الدفاع عنها، فابدأ بـ Claude Opus 4.7 بفضل اجتماع ثلاثة عناصر: مصدر رسمي من Anthropic، صدارة على Vals SWE-bench، ونتائج قوية في نسخ SWE-bench التي تنقلها أطراف أخرى . ضع GPT-5.5 كمنافس من الصف الأول في الاستدلال، لكن مع توضيح أن الأرقام المتاحة هنا ثانوية في معظمها
. عامل DeepSeek V4/V4 Pro كمرشح لاختبار داخلي لا كفائز معلن
. أما Kimi K2.6 فالأدق حالياً أن يدرج ضمن خانة الأدلة غير الكافية للمقارنة الشاملة
.
Comments
0 comments