كما يظهر أداء قويًا في مهام العمل المعرفي؛ ففي اختبار GDPval الذي يغطي مهامًا من 44 مهنة مختلفة، تمكن النموذج من مطابقة أو التفوق على خبراء بشر في نحو 84.9% من المقارنات.
تشير هذه النتائج إلى أن GPT‑5.5 قوي بشكل خاص في المهام المستقلة متعددة الخطوات.
يُعد Claude Opus 4.7 من شركة Anthropic من أقوى النماذج في مجال هندسة البرمجيات.
أبرز نتائجه:
اختبار SWE‑bench يقيس قدرة النموذج على حل مشاكل برمجية حقيقية في مشاريع مفتوحة المصدر. وقد نجح Opus 4.7 في حل 87.6% من الحالات في مجموعة SWE‑bench Verified، وهي نتيجة قوية للغاية في هذا المجال.
رغم أن نتيجته في Terminal‑Bench أقل من GPT‑5.5، فإن أداءه في اختبارات البرمجة الواقعية يجعله أحد أفضل النماذج المتخصصة في الوكيل البرمجي (Coding Agents).
نموذج Gemini 3.5 Flash من Google مختلف قليلاً عن النماذج الأخرى لأنه مصمم أساسًا ليكون سريعًا وفعال التكلفة بدل أن يكون أكبر نموذج في السلسلة.
النتائج المعلنة تشمل:
تشير Google إلى أن النموذج يعمل بسرعة تصل إلى أربع مرات أسرع من بعض النماذج المتقدمة المماثلة مع الحفاظ على أداء تنافسي في اختبارات البرمجة والعمل الوكيلي.
لذلك يُنظر إلى Gemini 3.5 Flash غالبًا على أنه أفضل توازن بين السرعة والقدرات، ما يجعله مناسبًا للتطبيقات الإنتاجية التي تحتاج زمن استجابة منخفض.
يحظى DeepSeek V4 باهتمام كبير لأنه أحد أقوى النماذج التي صدرت بأوزان مفتوحة حتى الآن.
تضم السلسلة إصدارين رئيسيين:
وفقًا للتقارير التقنية، يحقق V4‑Pro في وضع التفكير الأقصى النتائج التالية:
لكن تقييمًا مستقلًا أجراه برنامج CAISI التابع للمعهد الوطني الأمريكي للمعايير والتكنولوجيا (NIST) وجد أن قدراته ما تزال متأخرة عن أحدث النماذج بنحو ثمانية أشهر.
يمثل Grok 4.3 من شركة xAI تحسنًا كبيرًا مقارنة بالإصدارات السابقة، خصوصًا في مهام العمل الوكيلي.
الأرقام المنشورة تشمل:
الزيادة بأكثر من 300 نقطة Elo في اختبار GDPval‑AA مقارنة بالإصدار السابق تشير إلى تحسن كبير في قدرات تنفيذ المهام الواقعية متعددة الخطوات.
مع ذلك تشير تحليلات مستقلة إلى أن النموذج لا يزال أقل قليلاً من أحدث نماذج OpenAI وAnthropic في التقييمات العامة للقدرات.
عند النظر إلى النتائج عبر هذه الاختبارات المختلفة يظهر نمط واضح:
مع ذلك يجب التعامل مع هذه النتائج كاتجاهات عامة وليس كترتيب نهائي ثابت.
هناك عدة أسباب تجعل المقارنة بين النماذج الحديثة معقدة:
لهذا السبب يصبح ترتيب النماذج أكثر وضوحًا عادة بعد أشهر من الاختبارات المستقلة.
لا يوجد نموذج واحد يهيمن على جميع مجالات الذكاء الاصطناعي في عام 2026.
بدلاً من ذلك يظهر أن المشهد أصبح متخصصًا:
ومع استمرار الاختبارات المستقلة وتوحيد طرق القياس، من المرجح أن يتغير ترتيب هذه النماذج أكثر من مرة في السنوات القادمة.
Comments
0 comments