بالنسبة إلى Grok 4.3 وDeepSeek V4، يصبح الترتيب الدقيق أكثر صعوبة بسبب اختلاف منهجيات التقييم ودرجة الشفافية في نشر النتائج.
تُعد البرمجة أحد المجالات التي تظهر فيها الفروق بوضوح بين النماذج المتقدمة.
يتصدر Claude Opus 4.7 المؤشرات العامة في هذا المجال. فقد سجل 64.3٪ في SWE‑Bench Pro، وهو تحسن كبير مقارنة بالإصدارات السابقة ويعكس قدرة قوية على حل مشكلات برمجية حقيقية عبر لغات متعددة.
أما GPT‑5.5 فيحقق نتيجة أقل قليلاً في هذا الاختبار عند 58.6٪، لكنه يتفوق في مهام هندسية أوسع تتضمن العمل في الطرفية والتعامل مع أدوات متعددة. فعلى سبيل المثال، يقيس Terminal‑Bench 2.0 قدرة النموذج على أتمتة المهام المعقدة في سطر الأوامر والتنسيق بين الأدوات، وقد سجل GPT‑5.5 فيه 82.7٪.
سجل Gemini 3.5 Flash بدوره 55.1٪ في SWE‑Bench Pro. وعلى الرغم من أن النتيجة أقل من Opus 4.7، فإنها لافتة بالنسبة لنموذج مصمم أساساً للسرعة والاستجابة السريعة.
أما بالنسبة إلى Grok 4.3، فإن بيانات البرمجة المنشورة أقل توحيداً. فقد أُعلن عن نتائج مثل 81٪ في IFBench و98٪ في τ²‑Bench لمهام الاتصالات، لكن هذه الاختبارات تقيس قدرات محددة ولا يمكن مقارنتها مباشرة مع SWE‑Bench أو Terminal‑Bench.
وبالنسبة إلى DeepSeek V4، ما تزال نتائج البرمجة المؤكدة محدودة. بعض الأرقام المتداولة تأتي من اختبارات داخلية أو تسريبات لم يتم التحقق منها بشكل مستقل، ما يجعل المقارنة الدقيقة صعبة.
أصبحت الاختبارات الحديثة تركز أكثر على قدرة النماذج على استخدام الأدوات والتعامل مع مهام متعددة الخطوات، وهي قدرات أساسية لما يسمى بالأنظمة "الوكيلة" (Agentic AI).
تشير Google إلى أن Gemini 3.5 Flash يتصدر عدة اختبارات في استخدام الأدوات، منها 83.6٪ في MCP Atlas و56.5٪ في Toolathlon، وهي اختبارات تقيس قدرة النموذج على تنسيق العمل بين أدوات متعددة ضمن سير عمل حقيقي.
في المقابل، يظهر GPT‑5.5 أداءً قوياً في المهام المهنية المعرفية، خاصة في اختبار GDPval الذي يقيس أداء النموذج في مهام مرتبطة بعدة مهن مختلفة، حيث سجل 84.9٪ فوزاً أو تعادلاً مقابل نماذج أخرى.
كما يحقق Claude Opus 4.7 نتائج قوية في التفاعل مع واجهات الحاسوب. فقد سجل 78.0٪ في OSWorld‑Verified، وهو اختبار يقيس قدرة النموذج على استخدام واجهات سطح المكتب والتعامل مع البرامج كما يفعل المستخدم البشري.
لا تعكس الاختبارات وحدها جميع العوامل المهمة عند اختيار نموذج.
يركز Grok 4.3 على معالجة السياق الطويل وتخفيض التكلفة. فوفق وثائق xAI، يدعم النموذج نافذة سياق تصل إلى مليون رمز (Token)، مع تسعير يقارب 1.25 دولار لكل مليون رمز إدخال و2.50 دولار لكل مليون رمز إخراج، ما يجعله خياراً اقتصادياً نسبياً لبعض التطبيقات الكبيرة.
أما Gemini 3.5 Flash فقد صُمم خصيصاً للاستدلال السريع، وغالباً ما يُوصف بأنه أسرع بكثير من النماذج الرائدة التقليدية مع الحفاظ على أداء تنافسي في عدة اختبارات متقدمة.
من ناحية أخرى، تميل نماذج DeepSeek إلى التركيز على استراتيجيات النشر منخفضة التكلفة أو مفتوحة الأوزان، ما يجعلها جذابة للشركات التي ترغب في تشغيل النماذج محلياً أو على بنية تحتية خاصة.
أحد أهم التقييمات المستقلة لـ DeepSeek V4 جاء من المعهد الوطني الأمريكي للمعايير والتكنولوجيا (NIST) ضمن برنامج CAISI.
ووفق هذا التقييم، يُعد DeepSeek V4 أقوى نموذج صيني تم اختباره عبر عدة مجالات مثل هندسة البرمجيات والأمن السيبراني والرياضيات، لكنه لا يزال متأخراً عن النماذج الرائدة بنحو ثمانية أشهر من حيث القدرات.
كما يشير التقرير إلى أن نتائج الاختبارات الداخلية التي نشرتها DeepSeek تبدو أقوى من النتائج التي حصل عليها التقييم المستقل، ما يبرز أهمية التقييمات المحايدة عند مقارنة نماذج من مختبرات مختلفة.
حتى مع توفر الأرقام، تبقى المقارنة المباشرة بين النماذج معقدة لعدة أسباب:
لهذا السبب، ينبغي التعامل بحذر مع أي ترتيب نهائي صارم للنماذج.
استناداً إلى أفضل البيانات العامة المتاحة حالياً:
في النهاية، يعتمد اختيار "أفضل" نموذج بشكل كبير على نوع العمل المطلوب: فوكيل البرمجة، أو المساعد البحثي، أو تحليل النصوص الطويلة، أو التطبيقات الحساسة للتكلفة قد تفضل نماذج مختلفة حتى لو كانت نتائج الاختبارات العامة متقاربة.
Comments
0 comments