تقرير الفريق الأحمر لدى Anthropic يذهب أبعد من ذلك؛ إذ يقول إن Mythos يحقق أداء قويًا عبر مهام الأمن السيبراني، ويتحدث عن اكتشاف ثغرات «صفرية اليوم» في قواعد شيفرة مفتوحة المصدر حقيقية، وعن هندسة عكسية لاستغلالات في برمجيات مغلقة المصدر، وتحويل ثغرات معروفة لكن غير مرقعة على نطاق واسع إلى استغلالات عملية . لكن التقرير نفسه يوضح أن التفاصيل المنشورة محدودة، لأن أكثر من 99% من الثغرات التي عُثر عليها لم تكن قد رُقعت بعد، ما يجعل التحقق الخارجي من معظم الأمثلة غير ممكن حاليًا
.
القول إن النماذج الأرخص مهمة لا يعني أنها تساوي Mythos كوكلاء مستقلين. الفكرة أدق من ذلك: قدرات الذكاء الاصطناعي في الأمن السيبراني قد تكون «متعرجة» وليست خطًا مستقيمًا؛ فقد يكون نموذج ما ضعيفًا في مهام، لكنه قادرًا بشكل مفاجئ في تحليل ثغرة محددة إذا كانت الشيفرة ذات الصلة جاهزة أمامه. هذا ما خلصت إليه Aisle عندما وجدت أن نماذج صغيرة ورخيصة ومفتوحة الأوزان استطاعت استعادة جزء كبير من التحليل في ثغرات مختارة عرضتها Anthropic، بعد عزل الشيفرة المطلوبة .
كما لخصت Tom’s Hardware النقاش بعد الإعلان بصورة مشابهة: قد يكون Mythos من أقوى نماذج الذكاء الاصطناعي إجمالًا في الأمن السيبراني، لكن نماذج أرخص قد تصل إلى نتائج مشابهة في بعض مهام العثور على الاستغلالات وترقيعها، مع بقاء أسئلة حول الاعتمادية ووقت التوافر .
وهنا بيت القصيد. الوصول إلى نتيجة تحليلية مشابهة في ملف شيفرة معزول ليس مثل التنقل ذاتيًا داخل شبكة، وربط عدة خطوات، واستغلال ثغرة، وإنهاء محاكاة اختراق كاملة. الأدلة العلنية تدعم تفوق Mythos بقوة أكبر في هذه الأعمال الطويلة ذات الطابع الوكيل .
أفضل تفسير توفره الأدلة العلنية ليس «النموذج فقط»، بل «النموذج زائد البيئة المحيطة به»: أدوات، بيئة تنفيذ، صلاحيات وصول، اختيار السياق، هندسة أوامر، ومراجعة خبراء. قالت Aisle صراحة إن الخندق التنافسي هو «النظام الذي تُبنى داخله خبرة أمنية عميقة»، لا النموذج وحده . كما يعزز تقييم AISI أهمية الإعداد، لأن أقوى سلوك لاحظه جاء في ظروف مضبوطة كان فيها Mythos موجّهًا ومزوّدًا بوصول إلى الشبكة
.
الوصول نفسه جزء من القصة. تصف Bain نموذج Claude Mythos Preview بأنه نموذج واجهة بقدرات أمن سيبراني جدية إلى درجة أن Anthropic قيدت إتاحته ضمن برنامج شركاء مفحوصين يسمى Project Glasswing . لذلك فالمقارنة العملية ليست ببساطة: أي واجهة برمجة تطبيقات أرخص؟ بل: كم من سير العمل نفسه يمكن إعادة بنائه باستخدام نماذج متاحة وأدوات مناسبة وخبرة كافية؟
لا يوجد حتى الآن معيار علني نظيف يقارن السعر مقابل الأداء بين Mythos وواجهات النماذج منخفضة التكلفة والنماذج مفتوحة الأوزان، تحت الشروط نفسها. AISI قيّم Mythos في ظروف مضبوطة وقارنه باتجاه تطور نماذج الواجهة السابقة . Anthropic قدمت أدلة تفصيلية لكنها صادرة عن المطور نفسه
. أما Aisle فقدمت اختبارًا مضادًا أضيق على ثغرات عرض مختارة
. هذه المصادر تجيب عن أسئلة متقاربة، لكنها ليست السؤال نفسه.
المقارنة الحاسمة ينبغي أن تثبت عوامل مثل: صلاحيات الوصول إلى الأدوات، سياق الشيفرة، أذونات الشبكة، عدد المحاولات، ميزانية الحوسبة، قواعد تنفيذ الاستغلال، ودور المراجعة البشرية. من دون ذلك، تبقى الادعاءات الكبيرة — سواء بأن Mythos فريد تمامًا أو بأنه لا يختلف كثيرًا — سابقة لأوانها .
قدرات Claude Mythos السيبرانية تبدو استثنائية عندما تكون الاستقلالية والتنفيذ متعدد الخطوات هما جوهر المهمة. لكن السجل العلني لا يثبت أن منطق الأمن السيبراني الكامن داخله غير متاح للنماذج الأرخص بأي شكل. الاستنتاج الأكثر أمانًا: Mythos يمتلك تقدمًا حقيقيًا في سير العمل السيبراني المعقد، بينما تستطيع نماذج أقل تكلفة تغطية أجزاء مفاجئة من التحليل المحدود إذا اقترنت بأدوات قوية وإشراف خبراء .
Comments
0 comments