كلمة غير متاح هنا تعني أن الرقم لم يرد في المصدر المقارن، لا أن النموذج حصل على صفر.
في GPQA Diamond، الفارق بين Claude Opus 4.7 وGPT-5.5 صغير: 94.2% مقابل 93.6%، بينما يحصل DeepSeek-V4-Pro-Max على 90.1% . لكن في Humanity’s Last Exam بلا أدوات يتسع الفارق لمصلحة Claude: 46.9% مقابل 41.4% لـ GPT-5.5 و43.1% لـ GPT-5.5 Pro و37.7% لـ DeepSeek-V4-Pro-Max
.
الصورة تتغير عندما يسمح الاختبار باستخدام الأدوات. في Humanity’s Last Exam مع الأدوات، يسجل GPT-5.5 Pro نسبة 57.2%، يليه Claude Opus 4.7 بنسبة 54.7%، ثم GPT-5.5 بنسبة 52.2%، وDeepSeek-V4-Pro-Max بنسبة 48.2% . لذلك فالاستنتاج العملي هو: Claude أفضل مرشح أول للتفكير الصرف بلا أدوات، أما GPT-5.5 Pro فيبدو أقوى عندما تدخل الأدوات ضمن سير العمل
.
أوضح تفوق رقمي في هذه المجموعة يظهر في Terminal-Bench 2.0: يحصل GPT-5.5 على 82.7%، مقابل 69.4% لـ Claude Opus 4.7 و67.9% لـ DeepSeek-V4-Pro-Max . وبالنسبة إلى Kimi K2.6، تذكر بطاقة النموذج نتيجة 66.7 على Terminal-Bench 2.0، كما يعرض LLM Stats رقماً مكافئاً قدره 0.667 لـ Kimi K2.6 و0.694 لـ Claude Opus 4.7
. هذا يضع Kimi قريباً من Claude وDeepSeek في هذا المقياس، لكنه لا يقترب من نتيجة GPT-5.5 في الجدول العام
.
في SWE-Bench Pro / SWE Pro تتغير الصدارة: Claude Opus 4.7 يسجل 64.3%، ثم GPT-5.5 بنسبة 58.6%، ثم DeepSeek-V4-Pro-Max بنسبة 55.4% . أما Kimi K2.6 فتذكر بطاقة Hugging Face له 58.6 على SWE-Bench Pro، لكن هذا الرقم لا يأتي من التشغيل المقارن نفسه الذي جاءت منه أرقام GPT-5.5 وClaude وDeepSeek
.
أما SWE-Bench Verified فلا ينبغي تحويله إلى ترتيب عام لكل النماذج الأربعة. لدى Kimi K2.6 رقم 80.2 في بطاقة النموذج وملف التقييم . وفي مصدر منفصل عن DeepSeek V4، ترد نتيجة 87.6% لـ Claude Opus 4.7 و80.6% لـ DeepSeek V4-Pro، لكن المصدر لا يقدم صفاً كاملاً لـ GPT-5.5، كما أن نسخة DeepSeek هنا هي V4-Pro لا V4-Pro-Max
.
أقوى نقطة ظاهرة لـ GPT-5.5 هي Terminal-Bench 2.0، حيث يسجل 82.7% ويتصدر هذا الصف في الجدول المشترك . أما GPT-5.5 Pro فلا يظهر في كل الاختبارات، لكنه يتصدر حيثما وُجدت له أرقام بارزة: 57.2% في HLE مع الأدوات و90.1% في BrowseComp
.
بصيغة عملية: إن كانت المهمة تتضمن تشغيل أوامر، إصلاحات متتابعة، أو عملاً وكيلياً داخل بيئة طرفية، فـ GPT-5.5 يستحق أن يكون أول نموذج تختبره. وإن كانت المهمة تعتمد على أدوات خارجية أو تصفح، فـ GPT-5.5 Pro يبدو أوفر حظاً بحسب الصفوف المتاحة .
Claude Opus 4.7 يتصدر عدة صفوف في الجدول العام: 94.2% في GPQA Diamond، و46.9% في HLE بلا أدوات، و64.3% في SWE-Bench Pro / SWE Pro، و79.1% في MCP Atlas / MCPAtlas Public . لكنه يتراجع خلف GPT-5.5 في Terminal-Bench 2.0، وخلف GPT-5.5 Pro في HLE مع الأدوات وBrowseComp
.
لذلك يبدو Claude Opus 4.7 خياراً قوياً كبداية عندما تكون المهمة أقرب إلى تفكير عميق بلا أدوات، أو إلى برمجة شبيهة بمهام SWE-Bench Pro .
Kimi K2.6 لا يمكن ترتيبه بدقة أمام النماذج الأخرى اعتماداً على تشغيل موحد، لأن أرقامه هنا تأتي من بطاقة Hugging Face وملف تقييم منفصل . لكن صورته كمرشح برمجي قوية: البطاقة تذكر 80.2 على SWE-Bench Verified، و58.6 على SWE-Bench Pro، و76.7 على SWE-Bench Multilingual، و66.7 على Terminal-Bench 2.0، و73.1 على OSWorld-Verified
.
ما يجعل Kimi مثيراً للاهتمام ليس النتيجة وحدها، بل طريقة التشغيل أيضاً. فمصدر آخر يذكر أن الأوزان متاحة على Hugging Face وأن النموذج يمكن تشغيله عبر vLLM أو SGLang أو KTransformers . هذا لا يجعله فائزاً عاماً في جدول المقارنة، لكنه يجعله مرشحاً مهماً للفرق التي تريد تجارب استضافة ذاتية أو اختبارات محلية قبل اتخاذ قرار نهائي
.
في الجدول المشترك يظهر DeepSeek تحديداً كنسخة DeepSeek-V4-Pro-Max . في الصفوف المذكورة لا يحتل المركز الأول: 90.1% في GPQA Diamond، و37.7% في HLE بلا أدوات، و48.2% في HLE مع الأدوات، و67.9% في Terminal-Bench 2.0، و55.4% في SWE-Bench Pro / SWE Pro، و83.4% في BrowseComp، و73.6% في MCP Atlas / MCPAtlas Public
.
نقطة DeepSeek V4 الأقوى في هذه المقارنة ليست الصدارة المطلقة، بل معادلة السعر مقابل الأداء. Mashable وDataCamp يذكران أسعار API عند $1.74 لكل مليون رمز إدخال و$3.48 لكل مليون رمز إخراج، مقارنة بـ $5/$30 لـ GPT-5.5 و$5/$25 لـ Claude Opus 4.7 . إذا كانت الميزانية عاملاً حاسماً، فمن المنطقي إدخال DeepSeek V4 في اختباراتك الداخلية، لكن ليس من الدقيق وصفه بأنه قائد هذه المعايير
.
إذا التزمنا بالصفوف المشتركة فقط، فالصورة واضحة: Claude Opus 4.7 يتصدر GPQA Diamond وHumanity’s Last Exam بلا أدوات وSWE-Bench Pro وMCP Atlas؛ GPT-5.5 يتصدر Terminal-Bench 2.0؛ وGPT-5.5 Pro يتصدر HLE مع الأدوات وBrowseComp . Kimi K2.6 يبدو مرشحاً قوياً للبرمجة، خصوصاً مع أوزان متاحة ونتائج جيدة في SWE-Bench، لكنه لا يدخل في ترتيب مباشر عادل من دون تشغيل موحد
. أما DeepSeek V4 فليس قائد المعايير هنا، لكنه يستحق الاختبار في السيناريوهات الحساسة للكلفة بسبب أسعار API المنشورة الأقل
.
Comments
0 comments