لكن في مجموعة تقييمات البرمجة الأوسع، لا يزال GPT-5.5 متقدمًا في مناطق محددة. في اختبار Terminal-Bench 2.1 للبرمجة الطرفية، نال GPT-5.5 نسبة 78.2%، متقدماً على Opus 4.8 الذي حقق 74.6% و Gemini 3.1 Pro الذي حقق 70.3% .
كما تظهر معايير أنثروبيك الداخلية قفزات في مهام العمل المعرفي. حقق النموذج 1890 نقطة في تقييم GDPval-AA للأعمال المعرفية ذات القيمة الاقتصادية، مقارنة بـ 1769 لـ GPT-5.5 و 1314 لـ Gemini . تشير أنثروبيك إلى أن Opus 4.8 يتفوق على كلا النموذجين المنافسين في فئات رئيسية متعددة، وإن لم يتصدر كل اختبار
.
بعيدًا عن مقاييس الذكاء الخام، ركزت أنثروبيك بشدة على تحسينات في "جدارة" النموذج. أعلنت الشركة أن Opus 4.8 أقل عرضة من سابقه Opus 4.7 بحوالي أربع مرات للسماح بمرور عيوب في الكود الذي ينتجه دون تعليق .
سلطت آراء المختبرين الأوائل الضوء على أن النموذج أكثر ميلاً للإشارة إلى عدم يقينه وأقل عرضة لتقديم ادعاءات غير مدعومة خلال سير العمل المعقد ومتعدد الخطوات . وقد قدمت الشركة "الصدق" كخاصية رئيسية مميزة في هذا الإصدار، قائلة إن النموذج أقل عرضة لتقديم معلومات غير مدعومة بشكل كافٍ كحقائق
.
إلى جانب النموذج الأساسي، أطلقت أنثروبيك ميزات جديدة موجهة للمستخدمين، خاصة المطورين والمستخدمين المتقدمين .
سير العمل الديناميكي (Dynamic Workflows): متاحة كمعاينة بحثية في Claude Code، تتيح هذه الميزة للنموذج تخطيط مهمة، وتنسيقها عبر مئات الوكلاء الفرعيين المتوازيين، والتحقق من النتائج قبل الإبلاغ عنها. صُممت للمهام ضخمة النطاق مثل ترحيل الأكواد، والتدقيق، والبحث عن الأخطاء في جلسة واحدة .
مستوى المشاركة القابل للتعديل / التحكم في الجهد (Effort Control): يمكن للمستخدمين الآن تحديد عمق تفكير النموذج. تتيح خاصية "الجهد" (effort) على claude.ai وClaude Code مقايضة بين الذكاء، وتكلفة الرموز (tokens)، والسرعة. توصي الوثائق باستخدام مستوى xhigh لأصعب حالات البرمجة والوكلاء، والحد الأدنى high للمهام الأخرى الحساسة للذكاء .
تسعير التخزين المؤقت للتنبيهات (Prompt caching): 6.25 دولار لكل مليون رمز لعمليات الكتابة في ذاكرة التخزين المؤقت لمدة 5 دقائق، و10 دولارات للكتابة لمدة ساعة، و0.50 دولار لعمليات الوصول والتحديث من الذاكرة المؤقتة .
إطلاق Opus 4.8 ليس مجرد قفزة في التقييمات الخام؛ إنه تحديث مؤسسي وتطويري مستهدف. قصة المنتج تدور حول الموثوقية للوكلاء، والتعامل الصريح مع الشك، ومنح المبرمجين تحكمًا في مقايضة التكلفة مقابل الأداء عبر مستويات جهد محددة. قصة التسعير متحفظة، دون أي زيادة في الاستخدام القياسي لواجهة برمجة التطبيقات، بينما الانخفاض في سعر الوضع السريع يجعل الاستدلال عالي السرعة أكثر سهولة للتطبيقات الحساسة لزمن الاستجابة.
Comments
0 comments