من السهل أن تختصر قصة Claude Mythos Preview في رقم واحد: 93.9٪ على SWE-bench Verified. لكن هذه القراءة ستكون ناقصة. فـ Anthropic لا تعرض Mythos كإصدار عادي من عائلة Claude يمكن لأي مطور تجربته فوراً، بل تسجله في وثائق Claude API كنموذج معاينة بحثية منفصل لسير عمل الأمن السيبراني الدفاعي ضمن Project Glasswing، مع وصول بالدعوات فقط ومن دون تسجيل ذاتي.[13]
لذلك، الأرقام مهمة فعلاً، لكنها لا تُقرأ مثل نتائج نموذج متاح على لوحة ترتيب عامة. السؤال الأدق هو: ماذا تقيس هذه الأرقام؟ ومن نشرها؟ وهل يمكن إعادة اختبارها بالشروط نفسها؟
أبرز الأرقام المتداولة
معظم القيم الرقمية الدقيقة في هذه المجموعة من المصادر تظهر عبر جهات خارجية تلخص بيانات Anthropic أو بطاقة النظام أو تقاريرها الخاصة، لا عبر جدول رسمي واحد متاح للجميع.[6][
9][
25][
27]
| المجال | الاختبار | قيمة Claude Mythos Preview المبلّغ عنها | كيف نقرأها؟ |
|---|---|---|---|
| البرمجة | SWE-bench Verified | 93.9٪ | W&B تضعها مقابل 80.8٪ لـ Claude Opus 4.6.[ |
| البرمجة متعددة اللغات | SWE-bench Multilingual | 87.3٪ | W&B تذكر 77.8٪ لـ Claude Opus 4.6.[ |
| متعدد الوسائط | تقييم داخلي متعدد الوسائط | 59.0٪ | W&B تصف التقييم بأنه داخلي، وتذكر 27.1٪ لـ Claude Opus 4.6.[ |
| الأمن السيبراني | Cybench | pass@1 = 1.00 | Authmind تصف Cybench بأنه معيار عام يضم 40 تحدياً من نوع CTF، وتذكر 0.89 لـ Claude Opus 4.6.[ |
| الأمن السيبراني | CyberGym | 0.83 | Authmind تصف CyberGym كتقييم لإعادة إنتاج ثغرات محددة عبر 1,507 مهمة حقيقية من برمجيات مفتوحة المصدر، وتذكر 0.67 لـ Claude Opus 4.6.[ |
| الاستدلال | GPQA Diamond | 94.6٪ | llm-stats تذكر 91.3٪ لـ Claude Opus 4.6.[ |
| الاستدلال | Humanity’s Last Exam، من دون أدوات / مع أدوات | 56.8٪ / 64.7٪ | llm-stats تذكر 40.0٪ من دون أدوات و53.1٪ مع أدوات لـ Claude Opus 4.6.[ |
| وكلاء الطرفية | إعداد Terminal-Bench | 92.1٪ | llm-stats تربط الرقم بإعداد يشمل Terminus-2 harness، وأقصى مستوى من التفكير التكيفي، وميزانية مليون توكن لكل مهمة، ومهل اختبار موسعة إلى 4 ساعات، وتحديثات Terminal-Bench 2.1.[ |
| معرفة متعددة المهام | MMMLU | 92.7 | R&D World تذكر أن هذا الرقم يتداخل مع نطاق Gemini 3.1 Pro البالغ 92.6 إلى 93.6، وأنه الاستثناء الوحيد في ادعاء تصدر Mythos لـ 17 من 18 معياراً.[ |
ما الذي تؤكده Anthropic رسمياً؟
الأمر الأكثر وضوحاً في المصادر الرسمية هو وضع النموذج نفسه. وفق وثائق Anthropic، فإن Claude Mythos Preview نموذج معاينة بحثية منفصل مخصص لسير عمل الأمن السيبراني الدفاعي ضمن Project Glasswing، والوصول إليه بالدعوات فقط ولا توجد آلية تسجيل ذاتي.[13]
صفحة Project Glasswing لدى Anthropic تصف Claude Mythos Preview أيضاً بأنه نموذج حدودي عام، وبأنه أقوى نماذج Anthropic في البرمجة والمهام الوكيلية. وتربط الشركة قوته في الأمن السيبراني بقدرته الأوسع على فهم البرمجيات المعقدة وتعديلها، وبالتالي العثور على الثغرات وإصلاحها.[16]
أما مصدر بطاقة النظام المتاح في هذه المجموعة فيصف Claude Mythos Preview بأنه نموذج لغوي كبير جديد ونموذج حدودي، مع قدرات في هندسة البرمجيات والاستدلال واستخدام الحاسوب والعمل المعرفي والمساعدة البحثية.[18] بعبارة أخرى: المصادر الرسمية تدعم تموضع النموذج ومجالات قوته، بينما كثير من الأرقام التفصيلية الظاهرة هنا تأتي عبر مصادر طرف ثالث.[
6][
9][
25][
27]
لماذا أصبح رقم 93.9٪ هو العنوان الأبرز؟
لدى فرق البرمجة، رقم SWE-bench Verified هو الأكثر جذباً للانتباه. W&B تنسب إلى Claude Mythos Preview نتيجة 93.9٪ على هذا الاختبار، مقابل 80.8٪ لـ Claude Opus 4.6.[6] والسبب أن SWE-bench قريب من نوع المهام التي تهم مطوري البرمجيات: فهم مستودعات كود، إصلاح عيوب، والتعامل مع سياق برمجي لا يقتصر على سؤال قصير وجواب مباشر.
الرقم متعدد اللغات يعزز الصورة نفسها. فعلى SWE-bench Multilingual، تذكر W&B أن Mythos Preview وصل إلى 87.3٪ مقابل 77.8٪ لـ Opus 4.6.[6] هذا يوحي بأن القوة ليست محصورة في إعداد برمجي واحد باللغة الإنجليزية.
لكن ذلك لا يعني أن النموذج سيحقق الأداء نفسه في كل مستودع، أو مع كل أدوات بناء واختبار، أو داخل كل عملية مراجعة كود. وهناك قيد عملي أكبر: Anthropic لا تتيح Mythos Preview كتجربة ذاتية مفتوحة، بل كنموذج معاينة بحثية محدود الوصول.[13]
الأمن السيبراني: أرقام قوية داخل سياق خاص
الأرقام الأمنية لافتة أيضاً. Authmind تذكر أن Claude Mythos Preview حقق نتيجة كاملة على Cybench بقيمة pass@1 = 1.00، وتصف Cybench بأنه معيار عام مبني على 40 تحدياً من نوع CTF عبر مسابقات رئيسية.[27] وفي CyberGym، تذكر Authmind نتيجة 0.83، وتصف التقييم بأنه يختبر وكلاء الذكاء الاصطناعي في إعادة إنتاج ثغرات محددة عبر 1,507 مهمة حقيقية من مشاريع مفتوحة المصدر.[
27]
هذا ينسجم مع تموضع Anthropic الرسمي: في وثائق Claude API، يظهر Mythos Preview كنموذج معاينة بحثية لسير عمل الأمن السيبراني الدفاعي ضمن Project Glasswing.[13] وعلى صفحة Project Glasswing، تربط Anthropic الأداء الأمني بالقدرة الأعم على فهم البرمجيات المعقدة وتعديلها والعثور على الثغرات أو إصلاحها.[
16]
لكن طبيعة المهمة هنا مهمة جداً. تحديات CTF وإعادة إنتاج الثغرات هي بيئات اختبار محددة، وليست نسخة كاملة من واقع مؤسسة لديها سياسات أمن، قيود أدوات، مسارات موافقة، ومسؤوليات قانونية. لذلك تصلح هذه النتائج كإشارة قوية إلى القدرة، لا كبديل عن اختبار داخلي مضبوط.
الاستدلال، تعدد الوسائط، ووكلاء الطرفية
بعيداً عن البرمجة والأمن، تذكر llm-stats أرقاماً قوية في الاستدلال: 94.6٪ على GPQA Diamond، و56.8٪ على Humanity’s Last Exam من دون أدوات، و64.7٪ مع الأدوات.[25] الفصل بين النتيجتين في Humanity’s Last Exam مهم؛ لأن السماح للنموذج باستخدام أدوات يمكن أن يغير مستوى الأداء ويجعل المقارنات المباشرة أقل بساطة.
في Terminal-Bench، لا يكفي ذكر الرقم وحده. llm-stats تذكر نتيجة 92.1٪، لكنها تربطها بإعداد محدد: Terminus-2 harness، وأقصى مستوى من التفكير التكيفي، وميزانية مليون توكن لكل مهمة، ومهل اختبار موسعة إلى 4 ساعات، وتحديثات Terminal-Bench 2.1.[25] هذه ليست تفاصيل هامشية؛ ففي اختبارات الوكلاء، الوقت، والسياق، والأدوات، وميزانية التوكنات قد تصنع فرقاً كبيراً.
أما الرقم متعدد الوسائط فيحتاج إلى الحذر نفسه. W&B تذكر 59.0٪ في تقييم داخلي متعدد الوسائط لـ Mythos Preview مقابل 27.1٪ لـ Opus 4.6.[6] كما تشير llm-stats إلى أن SWE-bench Multimodal يستخدم تنفيذاً داخلياً، وأن نتائجه ليست قابلة للمقارنة مباشرة مع نتائج لوحات الترتيب العامة.[
25]
لماذا لا تُقرأ هذه النتائج كلوحة ترتيب عادية؟
هناك أربعة قيود رئيسية:
-
الوصول محدود: Claude Mythos Preview، وفق Anthropic، نموذج معاينة بحثية بالدعوات فقط ولا يملك مسار تسجيل ذاتي.[
13] وهذا يجعل إعادة الاختبار المستقلة أصعب على فرق التطوير العادية.
-
المصادر مختلطة: المصادر الرسمية المتاحة هنا تثبت وضع النموذج ومجالات قدرته العامة.[
13][
16][
18] أما كثير من الأرقام التفصيلية فتظهر عبر مصادر طرف ثالث.[
6][
9][
25][
27]
-
بعض الاختبارات داخلية أو بإعدادات خاصة: التقييم متعدد الوسائط موصوف كتقييم داخلي.[
6] وTerminal-Bench مذكور بإعداد محدد يشمل harness معيناً، وتفكيراً تكيفياً بأقصى مستوى، وميزانية توكنات كبيرة، ومهلاً زمنية طويلة.[
25]
-
كل معيار يقيس نوعاً محدداً من المهام: Cybench يضم 40 تحدياً من نوع CTF، بينما CyberGym يركز على إعادة إنتاج ثغرات عبر 1,507 مهمة من برمجيات مفتوحة المصدر.[
27] هذه مهام مهمة، لكنها لا تغطي كل سيناريو ممكن.
الخلاصة
Claude Mythos Preview يبدو، وفق الأرقام المبلّغ عنها، نموذجاً شديد القوة: 93.9٪ على SWE-bench Verified، و87.3٪ على SWE-bench Multilingual، و59.0٪ في تقييم داخلي متعدد الوسائط، و0.83 على CyberGym، وpass@1 = 1.00 على Cybench.[6][
27]
لكن أهم ما ينبغي تذكره ليس ارتفاع الأرقام وحده. Claude Mythos Preview، بحسب Anthropic، نموذج معاينة بحثية محدود الوصول ضمن Project Glasswing، وليس نموذجاً قياسياً متاحاً للجميع.[13] لذلك فالأفضل قراءة هذه النتائج كإشارة قوية إلى قدرات متقدمة في البرمجة والوكلاء والأمن السيبراني الدفاعي، لا كترتيب عام يمكن إعادة إنتاجه بسهولة من أي فريق على أي مشروع.




