حتى الضبط الدقيق المخصص لحالات استخدام بريئة يمكن أن يدمر محاذاة السلامة. أظهرت إحدى الدراسات أن مزج كميات صغيرة من البيانات غير الآمنة مع بيانات ضبط دقيق حميدة يُضعف حواجز الأمان بشكل كبير . وأكدت ورقة أخرى أن الضبط الدقيق للأوزان المفتوحة وواجهات برمجة تطبيقات الضبط الدقيق المغلقة يمكن أن ينتج نماذج أُزيلت منها جميع safeguards
.
توضح عدة تقنيات حديثة مدى سهولة عمليات تجاوز الحماية الآن.
هجوم الدُمية (Sockpuppeting) يحقن "قبولاً" مزيفاً في رد المُساعد الجاهز، مستغلاً ميل النموذج نحو الاتساق الذاتي. لا يتطلب أي تحسين، ولا أوزان نموذج، ولا أدوات متخصصة — فقط وصول إلى واجهة برمجة تطبيقات تدعم التعبئة المسبقة للمساعد. في اختبارات أبريل 2026، كان كل نموذج قَبِلَ التعبئة المسبقة عُرضة للخطر جزئيًا على الأقل، بما في ذلك GPT-4o و Claude 4 Sonnet و Gemini 2.5 Flash .
الهجمات المُستمدة من الأوراق البحثية تمثل ثغرة فوقية مقلقة. وجدت دراسة في 2026 أن استخدام محتوى من أوراق سلامة النماذج اللغوية المنشورة كموجّهات يحقق نسبة نجاح 97-98% في الهجمات على نماذج محاذاة بشكل جيد، بما في ذلك أنظمة الأوزان المغلقة مثل Claude 3.5 Sonnet .
تضخيم توجيه السلامة يوضح كيف يمكن أن تأتي التقنيات المخصصة لتحسين السلامة بنتائج عكسية. اكتُشف أن توجيه التنشيط وقت الاستدلال المخصص لتقليل "الرفض المفرط" على الاستفسارات الحميدة يُضخم عن غير قصد ثغرات التجاوز في نماذج مثل Llama 3.1 8B و Gemma 2 2B .
تخريب حواجز الاستدلال هو من بين أكثر النواقل إثارة للقلق. اكتشفت دراسة في مارس 2026 أن إضافة بضع كلمات نموذجية إلى الموجّه المُدخل يمكن أن يختطف حواجز الأمان القائمة على الاستدلال. وبمجرد اختراقها، يمكن لأنظمة الاستدلال هذه أن تنتج مخرجات أكثر ضررًا من النماذج التي لا تمتلك مثل هذه الحواجز .
دخلت قواعد الذكاء الاصطناعي للأغراض العامة (GPAI) في قانون الاتحاد الأوروبي حيز التنفيذ في أغسطس 2025 . أي نموذج تم تدريبه بأكثر من 10²⁵ عملية فاصلة عائمة (FLOPs) — وهو حد يشمل Llama 4.2 Ultra وكل نموذج تجاري رئيسي — يُصنف على أنه يُشكل خطرًا نظاميًا
.
التبعات على الشركات فورية:
توجد استثناءات للمصادر المفتوحة لكن بحدود واضحة. تجلس النماذج المُصدرة بموجب تراخيص مجانية ومفتوحة المصدر دون تحقيق أرباح إلى حد كبير خارج الالتزامات الأكثر صرامة ، لكن هذا الاستثناء يختفي فورًا إذا شكل النموذج خطرًا نظاميًا
. أكدت إعادة صياغة الاتحاد الأوروبي في مايو 2026 هذا الحد
. رُخصة مجتمع Llama من ميتا مُنعت بالفعل من التأهل لاستثناء المصدر المفتوح
.
الإنفاذ أصبح حيًا الآن، وليس نظريًا. في أوائل عام 2026، أطلق الاتحاد الأوروبي تحقيقات عالية المخاطر حول المخاطر النظامية في منصات رئيسية، بما في ذلك ميتا، مطالبًا بشفافية غير مسبوقة في مجموعات بيانات التدريب وحواجز الأمان .
أدلة الثغرات تُغذي ضغط السوق من أجل إعادة تأهيل أقوى للسلامة. أظهرت دراسة في عام 2025 أن التدريب على 2000 عينة سلامة فقط — بتكلفة تقارب 3 دولارات لنماذج 8B و 20 دولارًا لنماذج 72B — يمكن أن يقلل من معدلات نجاح الهجمات بنسبة 10-30%. تم تقليص أنجح أساليب الهجوم إلى معدل نجاح حوالي 5% بعد إعادة التأهيل .
توحي الاقتصاديات بأن إعادة التأهيل منخفضة التكلفة أمر ممكن، لكنها لم تصبح بعد ممارسة معيارية في النظام البيئي للأوزان المفتوحة. ومع تصاعد الضغط التنظيمي وازدياد حدة مشهد الهجمات، قد تجد الشركات التي تنشر هذه النماذج في الإنتاج أن وثيقة التأمين البالغة 20 دولارًا من الصعب تبرير تخطيها بشكل متزايد.
Comments
0 comments