اعتمدت الهجمات السابقة على المساعدات الصوتية عادةً على تفعيل كلمة التنبيه - مثل تشغيل تسجيل لـ "يا سيري" أو "OK Google" لتنشيط المساعد، ثم إصدار أوامر خبيثة مسموعة. أما AudioHijack فهو أخطر بكثير لأنه يستهدف النماذج اللغوية الصوتية الكبيرة التوليدية التي يمكنها تنفيذ إجراءات معقدة متعددة الخطوات بشكل مستقل - كإرسال رسائل البريد الإلكتروني، والوصول إلى البيانات الشخصية، والتحكم في أجهزة المنزل الذكي - دون أي عبارة تشغيل مسموعة .
يكمن التقدم الحقيقي في كيفية تجاوز الهجوم لعملية "التقسيم الرمزي" (Tokenization) للصوت. تقوم النماذج اللغوية الصوتية الكبيرة بتحويل الصوت الخام إلى رموز منفصلة (Tokens)، وهي عملية عادةً ما تكسر عمليات التحسين القائمة على التدرج الرياضي لأن خطوة التحويل إلى قيم منفصلة غير قابلة للاشتقاق. يتغلب إطار عمل AudioHijack على هذا باستخدام تقدير التدرج القائم على أخذ العينات، والذي يحاكي التدرج عبر محول الرموز غير الشفاف، مما يتيح توليد صوت خبيث شامل على الرغم من خط الأنابيب غير القابل للاشتقاق .
يمر الهجوم التقني بعدة مراحل متميزة:
صياغة الصوت الخبيث. يبدأ المهاجم بتعليمات مستهدفة - على سبيل المثال، "ابحث عن ملفات حساسة وقم بتحميلها". تقوم خوارزمية تحسين بإدخال تشويش غير مسموع على موجة الصوت، مع اختبار استجابة النموذج بشكل متكرر وتحسين الموجة حتى ينفذ النموذج الأمر الخبيث بشكل موثوق، بينما يظل الصوت كضوضاء خلفية عادية للأذن البشرية .
توجيه الانتباه. يوجه الهجوم آليات الانتباه الداخلية للنموذج نحو المقطع الصوتي الخبيث. وهذا يضمن سيطرة التعليمات المخفية على سلوك النموذج، حتى عندما تتم معالجة كلام المستخدم الشرعي في نفس الوقت .
التدريب المستقل عن السياق. يدرب الباحثون الصوت الخبيث عبر العديد من سياقات المحادثة المختلفة - ضوضاء خلفية متنوعة، أوامر مستخدم، وسيناريوهات تفاعل. والنتيجة هي إشارة مصممة واحدة مدتها 30 دقيقة تعمل بغض النظر عما يقوله المستخدم أو يفعله في وقت الهجوم .
الدمج الطبيعي. تقوم طريقة مزج التفافية (Convolutional Blending) بتهذيب التشويش ليبدو كصدى طبيعي للغرفة. بالنسبة للأذن البشرية، هو مجرد صدى خافت أو نغمة محيطة؛ أما بالنسبة لنموذج الذكاء الاصطناعي، فهو مجموعة من التعليمات المسيطرة .
يشكل AudioHijack تحدياً دفاعياً فريداً لعدة أسباب.
لا حاجة لتفاعل المستخدم. على عكس التصيد الاحتيالي أو البرمجيات الخبيثة عبر التطبيقات، لا ينقر المستخدم على أي شيء، ولا يثبت أي شيء، ولا يمنح أي أذونات. مجرد تشغيل محتوى صوتي بالقرب من جهاز مزود بالذكاء الاصطناعي يكفي لتحفيز الهجوم. إن تضمين الإشارة الخبيثة في فيديو يوتيوب، أو بودكاست، أو إعلان صوتي عبر البث، أو حتى مكالمة عبر الإنترنت (VOIP) يمنح المهاجمين سطح توزيع واسع .
تخفي يتفوق على الكشف البشري. تم تشكيل التشويش الخبيث بعناية ليكون تحت عتبة الإدراك الحسي. لا يسمع المستخدمون أي شيء مريب وليس لديهم سبب للشك في أن مساعدهم قد تعرض للاختراق .
قابل لإعادة الاستخدام ومستمر. نفس الصوت الخبيث يعمل في كل مرة يتم تشغيله. على عكس الثغرات البرمجية التي يتم تصحيحها فور اكتشافها، يمكن لملف صوتي مصمم أن يستغل الضحية بشكل متكرر، والثغرة الأساسية تكمن في البنية الأساسية للنموذج، وليست خطأً برمجياً يمكن إصلاحه بتحديث سريع .
تهديد لا يقتصر على نموذج واحد. تم اختبار AudioHijack بنجاح عبر 13 نموذجاً لغوياً صوتياً كبيراً مختلفاً ومتطوراً، مما يشير إلى أن الثغرة متأصلة في كيفية معالجة هذه النماذج للصوت بدلاً من أن تكون محصورة في تطبيق معين .
يلاحظ الباحثون أن الدفاع الفعّال الوحيد الذي تم إثباته حتى الآن هو مراقبة آليات الانتباه الداخلية للنموذج لاكتشاف واعتراض التوجيه الصوتي الخبيث. ومع ذلك، يمكن للمهاجمين التكيف عن طريق ضبط شدة توجيه الانتباه، مما يقلل من معدلات الكشف بينما لا يخفض معدل نجاح الهجوم إلا بشكل طفيف .
يخلق هذا ديناميكية "القط والفأر" حيث يجب على المدافعين مراقبة الحالات الداخلية للنموذج باستمرار - وهو نهج مكلف حسابياً وقد ينتهك الخصوصية إذا تم نشره على نطاق واسع. التداعيات الأوسع هي أن مسار إدخال الصوت للمساعدين الأذكياء أقل تدقيقاً بشكل أساسي من الواجهات النصية. بينما يُعد حقن الأوامر عبر النص تهديداً مستكشفاً بشكل كبير، فإن التحول إلى الوسائط الصوتية يفتح سطح هجوم أوسع بكثير بدأت الصناعة للتو في فهمه.
Comments
0 comments