في معيار Terminal-Bench 2.1، الذي يختبر البرمجة الوكيلية عبر سطر الأوامر، سجل Opus 4.8 74.6%. لا يزال متأخراً عن GPT-5.5 الذي سجل 78.2% لكنه يقفز بشكل كبير من 66.1% التي سجلها Opus 4.7 على نفس التقييم . للاستخدام الوكيلي للحاسوب، يصل Opus 4.8 إلى 83.4% على معيار OSWorld-Verified، متجاوزاً بهامش بسيط Opus 4.7 (82.8%) و GPT-5.5 (78.7%)
.
في العمل المعرفي المُقاس بمعيار GDPval-AA، يسجل Opus 4.8 تصنيف Elo يبلغ 1890، متفوقاً بفارق كبير على GPT-5.5 (1769) وفجوة واسعة مع Gemini (1314) . في اختبار "آخر امتحان للبشرية" للاستدلال متعدد التخصصات، سجل 57.9% مع الأدوات — وهو أعلى نتيجة وصول عام لشركة أنثروبيك — مقابل 49.8% بدون أدوات
.
تضعه أنثروبيك كنموذج أكثر صدقاً بشكل ملحوظ. في تقييمات الشركة الخاصة، هو أقل عرضة بنحو أربع مرات من Opus 4.7 للسماح بمرور عيوب البرمجة دون تعليق في تقييماته الذاتية .
معدلات السلوك غير المتوافق — بما في ذلك الخداع أو التعاون مع إساءة الاستخدام — أقل بكثير مما كانت عليه في Opus 4.7 وقابلة للمقارنة مع Claude Mythos Preview، الذي تعتبره أنثروبيك أفضل نموذج مواءمة لديها . هذا الأمر مهم للمطورين الذين يعتمدون على الذكاء الاصطناعي لمراجعة أو إنتاج شيفرات إنتاجية ويحتاجون إلى نموذج يشير إلى نقاط عمائه بدلاً من تقديم مخرجات معيبة بثقة.
التغيير الأكثر وضوحاً للمستخدم هو قرص التحكم في الجهد الجديد المتاح الآن على موقع claude.ai وواجهة Cowork . يمكن للمستخدمين اختيار مقدار الجهد الحسابي الذي يطبقه كلود على الاستجابة عبر عدة مستويات:
في Claude Code، زادت أنثروبيك حدود المعدل لاستيعاب الاستخدام الأعلى للرموز المميزة الذي يأتي مع مستويات الجهد المرتفعة . يمنح هذا المطورين مقايضات أكثر دقة بين وقت الاستجابة، التكلفة، وعمق الاستدلال في مهام البرمجة والوكلاء المعقدة.
للمطورين الذين يتعاملون مع مشكلات ضخمة جداً، تطرح أنثروبيك ميزة سير العمل الديناميكي (dynamic workflows) كمعاينة بحثية داخل Claude Code لمشتركي خطط Enterprise و Team و Max .
تتيح الميزة لـ Claude تخطيط مهمة، ثم إنشاء وتشغيل مئات الوكلاء الفرعيين المتوازيين في جلسة واحدة. يتم التحقق من المخرجات قبل إبلاغها، مما يجعل النظام مناسباً لعمليات ترحيل قواعد البيانات على مستوى قاعدة الشيفرة عبر مئات الآلاف من الأسطر البرمجية .
التسعير القياسي لـ Opus 4.8 يبقى تماماً كما كان لـ Opus 4.7: 5 دولارات لكل مليون رمز مميز مُدخل و 25 دولاراً لكل مليون رمز مميز مُخرج . تظل أسعار الكتابة والتحديث لذاكرة التخزين المؤقت للتلميحات (prompt caching) متوافقة مع فئة Opus الممتازة
.
التحول الأكثر أهمية في التسعير هو على جانب السرعة. الوضع السريع لـ Opus 4.8 يوفر توليداً أسرع للرموز المميزة يصل إلى 2.5 ضعف ويكلف الآن 10 دولارات لكل مليون رمز مميز مُدخل و 50 دولاراً لكل مليون رمز مميز مُخرج . هذا أرخص بثلاث مرات مما كان عليه الوضع السريع لـ Opus 4.6 و Opus 4.7، حيث كان يكلف 30/150 دولاراً
. أوقفت أنثروبيك العمل بالوضع السريع لـ Opus 4.6 وتوجه المستخدمين للترحيل إلى الوضع السريع لـ Opus 4.8 أو 4.7
.
لاستخدام الوضع السريع عبر API، يضبط المطورون speed: "fast"claude-opus-4-8 ويضمنون ترويسة البيتا fast-mode-2026-02-01 . يتم تسعير الميزة كمضاعف على الأسعار القياسية عبر نافذة السياق الكاملة التي تتجاوز 200 ألف رمز مميز مُدخل، وهي قابلة للدمج مع مضاعفات التخزين المؤقت للتلميحات وإقامة البيانات
.
النموذج متاح اليوم عبر Claude API باستخدام الاسم المستعار claude-opus-4-8، وهو مدعوم في الوضع السريع، والتخزين المؤقت للتلميحات، وتكوينات المعالجة الدفعية . تؤكد وثائق API ومنشورات إصدار المنصة أن العملاء على خطط Claude for Pro و Max و Team و Enterprise يمكنهم الوصول الفوري إلى Opus 4.8
.
بالتوازي مع Opus 4.8، شددت أنثروبيك لغتها حول الجدول الزمني لجعل نماذج فئة Mythos متاحة بشكل عام. منذ 7 أبريل 2026، كان Claude Mythos Preview مقصوراً على ما يقرب من 50 شريكاً في الأمن الدفاعي من خلال مشروع Glasswing . كانت قدرة النموذج على الهجوم السيبراني قوية بما يكفي لأن تحجب أنثروبيك الإصدار العام
.
في 28 مايو، قامت أنثروبيك بتحديث تأطيرها العام لتقول إنها تخطط لإطلاق نماذج فئة Mythos لجميع العملاء "في الأسابيع المقبلة" . هذا هو أوضح جدول زمني قدمته الشركة منذ إطلاق Glasswing. كما كشفت عن جولة تمويل Series H بقيمة 65 مليار دولار وبتقييم سوقي بعد التمويل بقيمة 965 مليار دولار، مما يعزز فكرة أن المسار التجاري لنماذج فئة Mythos ينتقل من المعاينة البحثية نحو التوفر الواسع
.
يعتبر Claude Opus 4.8 تحديثاً تدريجياً للنموذج يُحدث ثلاثة فروق عملية للبنائين:
بالنسبة للفرق التي تقيم ما إذا كانت ستنتقل، فإن الإشارة الأقوى هي اختبار Opus 4.8 مباشرةً على مهام البرمجة، والوكلاء، والعمل المعرفي الخاصة بكم - خاصةً للجلسات طويلة الأمد حيث يكون التصحيح الذاتي، والإبلاغ عن الشكوك، وتنسيق الوكلاء الفرعيين المتوازيين هو الأكثر أهمية.
Comments
0 comments