الشرطة — تعني أن المقتطفات المتاحة من المصادر لا تقدم نتيجة قابلة للمقارنة لهذا النموذج في ذلك الاختبار.
المشكلة ليست في ندرة النتائج، بل في أن كثيراً منها لا يقارن الشيء نفسه بالشيء نفسه. Artificial Analysis يعرض GPT-5.5 medium وKimi K2.6 وClaude Opus 4.7 non-reasoning high. AkitaOnRails يستخدم GPT-5.5 xHigh/Codex ويفصل بين DeepSeek V4 Flash وDeepSeek V4 Pro. VentureBeat يعرض GPT-5.5 وصفاً منفصلاً لـ GPT-5.5 Pro.
حتى عند حصر المقارنة بين GPT-5.5 وClaude Opus 4.7 فقط، النتيجة ليست خطاً مستقيماً. LLM Stats يقول إن Claude Opus 4.7 يتقدم في 6 من 10 اختبارات يعلنها المزودان معاً، بينما يتقدم GPT-5.5 في 4. تفوقات Claude تتركز حول الاختبارات الثقيلة في الاستدلال والمراجعة، بينما تفوقات GPT-5.5 تظهر أكثر في استخدام الأدوات طويل المدى والمهام التي تعتمد على الطرفية وسطر الأوامر.
أقوى إشارات GPT-5.5 تأتي من ARC وTerminal-Bench. في ARC-AGI-2 يسجل 85% مقابل 75.8% لـ Claude Opus 4.7، وفي ARC-AGI-1 يسجل 95% مقابل 93.5%. هذه اختبارات مهمة لمن يهتم بالاستدلال المجرد والتعرف إلى الأنماط، خصوصاً في المسائل البصرية أو غير التقليدية.
في Terminal-Bench 2.0، وهي بيئة أقرب إلى مهام الوكلاء التي تعمل عبر الطرفية، يحصل GPT-5.5 على 82.7%، متقدماً بوضوح على Claude Opus 4.7 عند 69.4% وDeepSeek عند 67.9%.
وتعطي Artificial Analysis إشارة إضافية في الاتجاه نفسه: GPT-5.5 medium يحصل على 57، مقابل 54 لـ Kimi K2.6 و52 لـ Claude Opus 4.7 non-reasoning high. لكن يجب عدم تحويل ذلك إلى حكم شامل على كل أوضاع Claude، لأن LLM Stats يوضح أن Claude Opus 4.7 يتفوق على GPT-5.5 في عدد من اختبارات الاستدلال وهندسة البرمجيات.
Claude Opus 4.7 يتألق عندما يكون المطلوب تفكيراً عميقاً أو مراجعة برمجية دقيقة. في Humanity’s Last Exam، وهو اختبار معرفي صعب يشار إليه اختصاراً بـ HLE، تعرض VentureBeat نتيجة 46.9% لـ Claude من دون أدوات، مقابل 41.4% لـ GPT-5.5 و37.7% لـ DeepSeek. ومع تفعيل الأدوات، يحصل Claude على 54.7% مقابل 52.2% لـ GPT-5.5 و48.2% لـ DeepSeek.
في SWE-Bench Pro، وهو اختبار يركز على إصلاح مشكلات برمجية أقرب إلى سيناريوهات هندسة البرمجيات الواقعية، تذكر DataCamp أن Claude Opus 4.7 يسجل 64.3%، مقابل 58.6% لـ GPT-5.5 و55.4% لـ DeepSeek V4 Pro.
هذه الصورة تتفق مع قراءة LLM Stats الأوسع: Claude يتقدم على GPT-5.5 في GPQA وHLE من دون أدوات وHLE مع أدوات وSWE-Bench Pro وMCP Atlas وFinanceAgent v1.1.
Kimi K2.6 ليس سهلاً وضعه في ترتيب واحد مع النماذج الثلاثة الأخرى، لأن الجداول المشتركة أقل. في المقتطف المتاح من Artificial Analysis يحصل Kimi K2.6 على 54، أقل من GPT-5.5 medium عند 57، لكنه أعلى من Claude Opus 4.7 non-reasoning high عند 52.
في اختبار AkitaOnRails للبرمجة يسجل Kimi K2.6 نتيجة 87: أقل من Claude Opus 4.7 عند 97 ومن GPT-5.5 xHigh/Codex عند 96، لكنه أعلى من DeepSeek V4 Flash عند 78 وDeepSeek V4 Pro عند 69. وفي مقارنة Verdent على SWE-Bench Verified تظهر نتيجة 80.2% لـ Kimi K2.6 مقابل 87.6% لـ Claude Opus 4.7.
الميزة العملية الأبرز لـ Kimi هي أنه يسلك طريق الأوزان المفتوحة. Verdent يذكر أن أوزان K2.6 متاحة على Hugging Face ويمكن تشغيلها عبر vLLM أو SGLang أو KTransformers، وأن الحد الأدنى العملي لتشغيل نسخة INT4 مع سياق مخفض هو 4× H100.
كما يعرض ملف README على Hugging Face مؤشرات وكيلية لـ Kimi K2.6 مثل HLE-Full مع الأدوات عند 54.0 وBrowseComp عند 83.2 وDeepSearchQA f1-score عند 92.5 وToolathlon عند 50.0 وMCPMark عند 55.9. لكن هذه الجدولة تقارن Kimi غالباً مع GPT-5.4 وClaude Opus 4.6 وGemini 3.1 Pro، لا مع المجموعة الكاملة التي نناقشها هنا.
في النتائج المتاحة، DeepSeek V4 لا يظهر غالباً كصاحب أعلى نتيجة خام. VentureBeat يضعه خلف GPT-5.5 وClaude Opus 4.7 في HLE من دون أدوات، وHLE مع أدوات، وTerminal-Bench 2.0. وفي DataCamp يحصل DeepSeek V4 Pro على 55.4% في SWE-Bench Pro، مقابل 58.6% لـ GPT-5.5 و64.3% لـ Claude Opus 4.7.
وفي AkitaOnRails يسجل DeepSeek V4 Flash نتيجة 78 وDeepSeek V4 Pro نتيجة 69، وكلاهما دون Kimi K2.6 وGPT-5.5 xHigh/Codex وClaude Opus 4.7 في الجدول نفسه.
لكن السعر يغير زاوية القرار. بحسب Mashable، تكلفة DeepSeek V4 هي $1.74 لكل مليون توكن إدخال و$3.48 لكل مليون توكن إخراج، بينما GPT-5.5 مذكور عند $5/$30، وClaude Opus 4.7 عند $5/$25. هذا لا يجعله بطل البنشماركات، لكنه قد يجعله خياراً منطقياً للتجارب الكثيفة، والمسودات كثيرة العدد، والمهام منخفضة المخاطر، والتقييمات الداخلية الرخيصة.
إذا نظرنا إلى الأرقام فقط، فالقمة العملية تضم GPT-5.5 وClaude Opus 4.7، لكن لكل واحد منهما ملعبه. GPT-5.5 أقوى في ARC وTerminal-Bench، بينما Claude Opus 4.7 يتقدم في HLE وSWE-Bench Pro. أما Kimi K2.6 فهو منافس قوي في البرمجة والمهام الوكيلية، خصوصاً لمن يريد مساراً يعتمد على الأوزان المتاحة للتشغيل الذاتي، لكن المقارنات المباشرة الكاملة معه أقل.
ويبقى DeepSeek V4 أقل غالباً في النتائج الخام ضمن هذه البيانات، لكنه حاضر بقوة عندما يصبح السعر جزءاً أساسياً من قرار المنتج أو البنية التحتية.
Comments
0 comments