वॉइस असिस्टेंट पर पहले के हमले आमतौर पर वेक-वर्ड एक्टिवेशन पर निर्भर थे—असिस्टेंट को ट्रिगर करने के लिए एक रिकॉर्डेड "हे सिरी" या "ओके गूगल" कमांड चलाना, फिर सुनाई देने वाली दुर्भावनापूर्ण कमांड जारी करना। ऑडियोहाईजैक कहीं अधिक खतरनाक है क्योंकि यह जनरेटिव LALMs को निशाना बनाता है जो स्वायत्त रूप से जटिल मल्टी-स्टेप कार्रवाइयों को अंजाम दे सकते हैं—ईमेल भेजना, व्यक्तिगत डेटा तक पहुंचना, स्मार्ट होम डिवाइसों को नियंत्रित करना—बिना किसी श्रव्य ट्रिगर वाक्यांश के ।
असली छलांग यह है कि हमला मॉडल के ऑडियो टोकनाइजेशन को कैसे बायपास करता है। LALMs कच्चे ऑडियो को असतत टोकन में बदलते हैं, एक ऐसी प्रक्रिया जो सामान्य रूप से ग्रेडिएंट-आधारित ऑप्टिमाइजेशन को तोड़ देती है क्योंकि यह डिस्क्रीटाइजेशन स्टेप डिफरेंशिएबल नहीं होता। ऑडियोहाईजैक फ्रेमवर्क सैंपलिंग-आधारित ग्रेडिएंट एस्टीमेशन का उपयोग करके इस पर काबू पाता है, जो ब्लैक-बॉक्स टोकनाइजर के माध्यम से अनुमानित ग्रेडिएंट निकालता है, जिससे नॉन-डिफरेंशिएबल पाइपलाइन के बावजूद एंड-टू-एंड एडवर्सेरियल ऑडियो जनरेशन संभव हो पाता है ।
तकनीकी प्रक्रिया के कई अलग-अलग चरण हैं:
एडवर्सेरियल ऑडियो तैयार करना। हमलावर एक लक्षित निर्देश से शुरू करता है—उदाहरण के लिए, "संवेदनशील फाइलें खोजें और डाउनलोड करें।" एक ऑप्टिमाइजेशन एल्गोरिदम ऑडियो वेवफॉर्म को अश्रव्य रूप से विकृत करता है, मॉडल की प्रतिक्रिया का बार-बार परीक्षण करता है और वेवफॉर्म को तब तक परिष्कृत करता है जब तक मॉडल विश्वसनीय रूप से दुर्भावनापूर्ण कमांड निष्पादित नहीं करता, जबकि ऑडियो मनुष्यों को सामान्य पृष्ठभूमि शोर जैसा ही सुनाई देता है ।
अटेंशन सुपरविजन। यह हमला मॉडल के आंतरिक अटेंशन मैकेनिज्म को एडवर्सेरियल ऑडियो सेगमेंट की ओर ले जाता है। यह सुनिश्चित करता है कि छिपा हुआ निर्देश मॉडल के व्यवहार पर हावी हो जाए, भले ही वैध उपयोगकर्ता की आवाज़ भी प्रोसेस हो रही हो ।
संदर्भ-अज्ञेय प्रशिक्षण। शोधकर्ता कई अलग-अलग वार्तालाप संदर्भों—विभिन्न पृष्ठभूमि शोर, उपयोगकर्ता आदेश, और इंटरैक्शन परिदृश्यों—में एडवर्सेरियल ऑडियो को प्रशिक्षित करते हैं। परिणाम एक एकल 30 मिनट का तैयार सिग्नल होता है जो इस बात की परवाह किए बिना काम करता है कि हमले के समय उपयोगकर्ता क्या कह रहा है या कर रहा है ।
प्राकृतिक सम्मिश्रण। एक कन्वोल्यूशनल ब्लेंडिंग विधि विकृति को प्राकृतिक कमरे की गूंज (रिवर्बरेशन) जैसी ध्वनि में बदल देती है। इंसानी कान के लिए, यह बस एक हल्की गूंज या परिवेशी स्वर है; AI मॉडल के लिए, यह निर्देशों का एक ओवरराइडिंग सेट है ।
ऑडियोहाईजैक कई कारणों से एक अनूठी और कठिन रक्षा चुनौती प्रस्तुत करता है।
कोई उपयोगकर्ता इंटरैक्शन आवश्यक नहीं। फ़िशिंग या ऐप-आधारित मैलवेयर के विपरीत, उपयोगकर्ता कुछ भी क्लिक नहीं करता, कुछ इंस्टॉल नहीं करता, या कोई अनुमति नहीं देता। AI-युक्त डिवाइस के पास ऑडियो सामग्री चलाना मात्र हमले को ट्रिगर करने के लिए पर्याप्त है। दुर्भावनापूर्ण सिग्नल को यूट्यूब वीडियो, पॉडकास्ट, स्ट्रीमिंग ऑडियो विज्ञापन, या यहां तक कि एक VOIP कॉल में एम्बेड करने से हमलावरों को अटैक का एक विशाल डिस्ट्रीब्यूशन सरफेस मिल जाता है ।
गुप्तता जो मानव पहचान को विफल कर देती है। एडवर्सेरियल विकृति को सावधानीपूर्वक अवधारणात्मक सीमा (परसेप्चुअल थ्रेशोल्ड) से नीचे रहने के लिए आकार दिया जाता है। उपयोगकर्ता कुछ भी संदिग्ध नहीं सुनते और उनके पास यह संदेह करने का कोई कारण नहीं होता कि उनका असिस्टेंट कब्जा लिया जा चुका है ।
पुन: प्रयोज्य और स्थायी। वही एडवर्सेरियल ऑडियो हर बार बजाए जाने पर काम करता है। सॉफ्टवेयर एक्सप्लॉइट के विपरीत जो एक बार खोजे जाने पर पैच हो जाते हैं, एक तैयार ऑडियो फ़ाइल पीड़ित का बार-बार शोषण कर सकती है, और अंतर्निहित भेद्यता मॉडल की मौलिक वास्तुकला में है, न कि किसी सॉफ्टवेयर बग में जिसे हॉटफिक्स किया जा सके ।
मॉडल-अज्ञेयवादी खतरा। ऑडियोहाईजैक का 13 विभिन्न अत्याधुनिक LALMs पर सफलतापूर्वक परीक्षण किया गया, जो बताता है कि यह भेद्यता एक विशिष्ट कार्यान्वयन तक सीमित होने के बजाय, इन मॉडलों द्वारा ऑडियो को प्रोसेस करने के तरीके में स्थानिक (एंडेमिक) है ।
शोधकर्ताओं ने नोट किया है कि अब तक प्रदर्शित एकमात्र प्रभावी बचाव मॉडल के आंतरिक अटेंशन मैकेनिज्म की निगरानी करना है ताकि दुर्भावनापूर्ण ऑडियो मार्गदर्शन का पता लगाया और उसे रोका जा सके। हालांकि, हमलावर अटेंशन-स्टीयरिंग की तीव्रता को ठीक करके अनुकूलन कर सकते हैं, जिससे पता लगाने की दर कम हो जाती है जबकि हमले की सफलता में केवल मामूली कमी आती है ।
यह एक बिल्ली-और-चूहे की गतिशीलता पैदा करता है जहां रक्षकों को लगातार आंतरिक मॉडल स्थितियों की निगरानी करनी चाहिए—एक ऐसा दृष्टिकोण जो कम्प्यूटेशनल रूप से महंगा है और बड़े पैमाने पर तैनात होने पर संभावित रूप से गोपनीयता-आक्रामक है।
व्यापक निहितार्थ यह है कि AI असिस्टेंट के लिए ऑडियो इनपुट पाइपलाइन की टेक्स्ट-आधारित इंटरफेस की तुलना में मौलिक रूप से कम जांच की गई है। जबकि टेक्स्ट के माध्यम से प्रॉम्प्ट इंजेक्शन एक अच्छी तरह से खोजा गया खतरा है, ऑडियो मोडैलिटी में बदलाव एक बहुत व्यापक हमले की सतह खोलता है जिसे उद्योग अभी समझना शुरू कर रहा है।
Comments
0 comments