اختبارات النماذج الكبيرة، أو الـBenchmarks، مفيدة لكنها لا تقول كل شيء. DataCamp ينبه في سياق مقارنات النماذج المتقدمة إلى أن بعض النتائج تكون مبلّغاً عنها من الشركات نفسها، وأن إعدادات الاختبار أو الـharness قد تختلف من حالة إلى أخرى . هذه نقطة مهمة: قد يتقدم نموذج في اختبار برمجة، ثم يتراجع في اختبار استخدام أدوات أو بحث أو مهام مالية.
هناك أيضاً مشكلة النسخ والإعدادات. Artificial Analysis يذكر GPT-5.5 xhigh وGPT-5.5 high، بينما يظهر Claude Opus 4.7 بإعداد Adaptive Reasoning وMax Effort . وVentureBeat يشير إلى DeepSeek-V4-Pro-Max عند الحديث عن DeepSeek V4
. هذه التفاصيل قد تغير النتيجة، خصوصاً في اختبارات الاستدلال، والبرمجة، والمهام التي تعتمد على الأدوات.
لذلك، بدلاً من سؤال: «من رقم واحد؟»، السؤال العملي هو: ما النموذج الذي يملك أفضل دليل للوظيفة التي تريده من أجلها؟
أوضح مؤشر عام في المصادر هو مقتطف Artificial Analysis. فيه يتصدر GPT-5.5 xhigh بـ60 نقطة، ثم GPT-5.5 high بـ59 نقطة، بينما يأتي Claude Opus 4.7 بإعداد Adaptive Reasoning وMax Effort عند 57 نقطة .
هذا يدعم أفضلية عامة خفيفة لكنها واضحة لـGPT-5.5 على Claude Opus 4.7 في ذلك المؤشر . أما DeepSeek V4 وKimi K2.6، فلا يقدم المقتطف نفسه قيماً كاملة ومباشرة تسمح بمقارنة رباعية نظيفة
.
BrowseComp هو أقوى موضع تظهر فيه مقارنة مباشرة بين GPT-5.5 وClaude Opus 4.7 وDeepSeek V4. بحسب VentureBeat، يحقق GPT-5.5 Pro نسبة 90.1%، وGPT-5.5 نسبة 84.4%، وDeepSeek V4 نسبة 83.4%، وClaude Opus 4.7 نسبة 79.3% .
مع ذلك، يقول تقرير VentureBeat إن DeepSeek-V4-Pro-Max لا يبدو أنه يزيح GPT-5.5 أو Claude Opus 4.7 عن القمة إجمالاً في الاختبارات القابلة للمقارنة مباشرة . القراءة المنصفة: DeepSeek V4 قريب جداً في BrowseComp، لكن اختباراً واحداً قوياً لا يكفي لإعلانه الفائز العام.
في اختبارات الكود لا توجد إجابة واحدة. Claude Opus 4.7 يسجل 64.3% في SWE-Bench Pro مقابل 58.6% لـGPT-5.5 . كما تذكر Vellum أن Claude Opus 4.7 يحقق 87.6% في SWE-Bench Verified
.
بالنسبة إلى DeepSeek V4 وKimi K2.6، لا تكفي المصادر المقدمة لوضعهما في الجدول نفسه بثقة. VentureBeat يقول إن DeepSeek V4 يقترب من النماذج الرائدة في عدة اختبارات قابلة للمقارنة، لكنه يبرز أوضح أرقامه في BrowseComp . أما Kimi K2.6، فتقدم عنه DocsBot مواصفات معمارية ووظيفية أكثر من مصفوفة أرقام مباشرة ضد GPT-5.5 وClaude Opus 4.7 وDeepSeek V4
.
في اختبارات المعرفة والاستدلال، الفارق بين GPT-5.5 وClaude Opus 4.7 ضيق ويتغير حسب الاختبار. في GPQA Diamond تذكر Vellum أن GPT-5.5 يحقق 93.6%، بينما يحقق Claude Opus 4.7 نسبة 94.2% . وتورد Mashable الأرقام نفسها، مع نتائج Humanity’s Last Exam: من دون أدوات يسجل GPT-5.5 نسبة 40.6% مقابل 31.2% لـClaude Opus 4.7، أما مع الأدوات فيسجل Claude Opus 4.7 نسبة 54.7% مقابل 52.2% لـGPT-5.5
.
في المهام المهنية والوكيلة، الصورة مختلطة أيضاً. Vellum تذكر أن GPT-5.5 يسجل 84.9% في GDPval مقابل 80.3% لـClaude Opus 4.7، و78.7% في OSWorld-Verified مقابل 78.0%، بينما يتقدم Claude في MCP Atlas بنسبة 79.1% مقابل 75.3% لـGPT-5.5 . وتذكر OpenAI أن Claude Opus 4.7 يتقدم في FinanceAgent v1.1 بنسبة 64.4% مقابل 60.0% لـGPT-5.5
.
Anthropic تضيف مؤشراً داخلياً: تقول إن Claude Opus 4.7 حقق، في اختبار بحثي وكيل داخلي، أعلى نتيجة إجمالية مشتركة عبر ست وحدات عند 0.715، وسجل في وحدة General Finance نتيجة 0.813 مقابل 0.767 لـOpus 4.6 . لكن لأن هذا الاختبار داخلي ولا يغطي النماذج الأربعة بالطريقة نفسها، فهو أقرب إلى إشارة على قوة Claude في العمل متعدد الخطوات، وليس ترتيباً مستقلاً لجميع النماذج
.
عند بناء تطبيق أو تشغيل مساعد يومي عبر API، لا تكفي نقطة إضافية في اختبار. التكلفة قد تغير القرار بالكامل، خصوصاً عندما تصبح ملايين التوكنات جزءاً من الاستخدام الطبيعي. و«التوكن» هنا هو وحدة نصية صغيرة يستخدمها النموذج في الإدخال أو الإخراج.
بحسب Mashable، تكلفة DeepSeek V4 هي 1.74 دولار لكل مليون توكن إدخال و3.48 دولار لكل مليون توكن إخراج، مع نافذة سياق قدرها مليون توكن . وفي المصدر نفسه، تكلفة GPT-5.5 هي 5 دولارات لكل مليون توكن إدخال و30 دولاراً لكل مليون توكن إخراج، بينما تبلغ تكلفة Claude Opus 4.7 خمسة دولارات للإدخال و25 دولاراً للإخراج لكل مليون توكن، مع نافذة سياق قدرها مليون توكن أيضاً
.
هنا تظهر جاذبية DeepSeek V4: هو ليس المتصدر العام في كل الأرقام، لكنه يقترب من GPT-5.5 في BrowseComp ويأتي بتكلفة أقل بكثير في الأرقام المذكورة . هذا يجعله خياراً يستحق الاختبار إذا كان العمل يعتمد على البحث، التلخيص، أو أحجام استخدام كبيرة.
Kimi K2.6 حالة مختلفة. DocsBot يصفه بأنه نموذج مفتوح المصدر، متعدد الوسائط بصورة أصلية، ووكيل، مع بنية MoE بحجم 1 تريليون معامل، و32 مليار معامل نشط، وسياق يصل إلى 256 ألف توكن . كما يذكر المصدر أنه يدعم تنسيق أسراب من الوكلاء حتى 300 وكيل فرعي و4,000 خطوة منسقة للمهام المعقدة
.
هذه مواصفات تقنية مهمة، لكنها لا تساوي ترتيباً رقمياً. ما ينقص Kimi K2.6 في هذه المقارنة هو وجود أرقام مباشرة ومتجانسة أمام GPT-5.5 وClaude Opus 4.7 وDeepSeek V4. لذلك لا يصح رفعه أو إنزاله في القائمة بناءً على المواصفات وحدها .
GPT-5.5 هو أفضل اختيار شامل وفق الأدلة المتاحة: يتصدر مقتطف Artificial Analysis، ويحقق أرقاماً قوية في BrowseComp وTerminal-Bench 2.0 وعدة اختبارات مهنية .
Claude Opus 4.7 ليس بعيداً، بل يتفوق في مناطق مهمة: SWE-Bench Pro، SWE-Bench Verified، GPQA Diamond، وبعض اختبارات التمويل والمهام الوكيلة . إن كان العمل يدور حول مراجعة الكود أو التحليل العميق، فلا ينبغي تجاهله.
DeepSeek V4 هو المرشح الأبرز من زاوية السعر مقابل الأداء. رقمه في BrowseComp قريب جداً من GPT-5.5، وأسعاره المعلنة في المصدر أقل بكثير من GPT-5.5 وClaude Opus 4.7 .
أما Kimi K2.6، فالأفضل التعامل معه كخيار تقني واعد يحتاج إلى اختبار مباشر، لا كنموذج يمكن ترتيبه بثقة في هذه القائمة. المواصفات قوية، لكن المقارنة العادلة تحتاج أرقام Benchmarks وأسعاراً مباشرة أمام المنافسين الثلاثة .
Comments
0 comments