الرقم الذي يتكرر عند الحديث عن Claude Mythos Preview هو 93.9% في SWE-bench. لكنه ليس «ختم تفوق شامل» على كل نماذج الذكاء الاصطناعي؛ بل إشارة قوية داخل سياق محدد جدًا: مهام البرمجة، وتصحيح الكود، وسير العمل الذي يشبه عمل وكيل برمجي يتعامل مع مستودعات وبرمجيات واختبارات [1][
2].
الرقم الأبرز: 93.9% في SWE-bench
النتيجة المركزية المنسوبة إلى Claude Mythos Preview هي 93.9% في SWE-bench [1][
2]. لذلك يصبح هذا الرقم مهمًا خصوصًا للمطورين والفرق التي تريد قياس أداء النموذج في مهام هندسة البرمجيات، مثل فهم الكود، تعديل الملفات، إصلاح الأعطال، أو العمل ضمن مسار قريب من وكلاء البرمجة [
1].
لكن طريقة الاختبار جزء أساسي من القصة. فالنتائج المرتفعة في SWE-bench تتحقق عادة عندما يعمل النموذج كوكيل: يقرأ الملفات، يشغّل الكود، يراجع نتائج الاختبارات، ثم يكرر المحاولة بناءً على ما وجده [1]. هذا لا يقلل من قيمة النتيجة، لكنه يعني أن الرقم يقيس أداء النموذج داخل بيئة أدوات وتقييم، لا قدرته المجردة في محادثة نصية فقط.
ما الذي لا تقوله نتيجة 93.9%؟
لا ينبغي قراءة 93.9% باعتبارها «درجة عامة» لـ Claude Mythos Preview. معيار برمجي مثل SWE-bench لا يقيس وحده التفكير العام، السلامة، الكلفة التشغيلية، التوافر، أو الأداء في مهام بعيدة عن كتابة الكود ومراجعته وتعديله [1].
ولهذا، فقاعدة المقارنة العادلة بسيطة: قارن النماذج داخل المعيار نفسه وبشروط تشغيل متقاربة. إذا كان نموذج يعمل مع أدوات لقراءة الملفات وتشغيل الاختبارات والتكرار، بينما يُختبر نموذج آخر من دون هذه الأدوات، فقد تكون المقارنة مضللة حتى لو بدت الأرقام واضحة [1].
أرقام benchmark المذكورة حول Claude Mythos Preview
| المجال | النتيجة المذكورة | كيف تُقرأ؟ |
|---|---|---|
| البرمجة / SWE-bench | 93.9% | الرقم الأوضح عند الحديث عن مهام البرمجة ووكلاء الكود [ |
| الأمن السيبراني | 83.1% مقابل 66.6% لـ Claude Opus 4.6 | مقارنة مذكورة في معايير لقدرات الأمن السيبراني، وليست القياس نفسه الذي يقدمه SWE-bench [ |
| Cybench | 100% | تقرير ثانوي عن تحديات في الأمن السيبراني، لا تقييم شامل لكل قدرات النموذج [ |
| مجموعة أوسع من المعايير | يتصدر 17 من 18 معيارًا مقاسًا | ادعاء تجميعي في تقرير يستند إلى بيانات من Anthropic؛ الأفضل مراجعة التفاصيل قبل تحويله إلى ترتيب عام مطلق [ |
البرمجة والأمن السيبراني: إشارتان مختلفتان
الأرقام الخاصة بالأمن السيبراني لا يجب خلطها مباشرة مع SWE-bench. أحد التقارير يذكر أن Claude Mythos Preview حقق 83.1% في معايير قدرات الأمن السيبراني، مقابل 66.6% لـ Claude Opus 4.6 [3]. كما يذكر مصدر آخر أن Mythos حقق 100% في Cybench، وهو معيار يصفه المصدر بأنه مخصص لتحديات الأمن السيبراني [
5].
مصادر Anthropic المتاحة هنا تميل أيضًا إلى هذا الاتجاه: فريق Anthropic Red Team نشر تقييمًا لقدرات Claude Mythos Preview في الأمن السيبراني، بينما يتضمن Project Glasswing عملًا حول تحديد الثغرات والاستغلالات باستخدام النموذج [13][
24]. هذا مهم جدًا لفرق الأمن، لكنه لا يجعل كل هذه الأرقام رقمًا واحدًا موحدًا لأداء النموذج.
كيف تستخدم الرقم في تقييم عملي؟
إذا كان استخدامك يشبه وكيلًا يعمل على مستودعات برمجية، يقرأ الملفات، يعدّل الكود، يشغّل الاختبارات، ثم يحسن الحل، فإن 93.9% في SWE-bench هو الرقم الأنسب للبدء منه [1][
2]. أما إذا كان اهتمامك منصبًا على تحليل الثغرات، مراجعة أمان الكود، أو أبحاث الاستغلال، فالأجدر النظر إلى مقاييس الأمن السيبراني والوثائق المرتبطة بها [
3][
5][
13][
24].
الخلاصة العملية: Claude Mythos Preview يُذكر معه رقم 93.9% في SWE-bench، وهذه هي الإجابة القصيرة عن أشهر benchmark مرتبط به [1][
2]. أما القراءة الأدق فهي أضيق: الرقم إشارة قوية في مهام البرمجة وتحت شروط تقييم محددة، وليس دليلًا تلقائيًا على تفوق عام في كل المجالات.




