खास बात यह है कि इस हमले के बाद रिपोर्ट की गुणवत्ता बेतुकी या खराब नहीं लगती। डाला गया टेक्स्ट असली जानकारी के साथ इस कदर घुल-मिल जाता है कि एक सामान्य पाठक और ऑटोमेटेड फिल्टर दोनों के लिए इस धोखे को पकड़ना बेहद मुश्किल हो जाता है .
दरअसल, असली बुराई 'रिट्रीवल ओवरलैप' है। शोधकर्ताओं ने देखा कि एक ही विषय समूह के 48% तक संबंधित सवालों के सर्च रिजल्ट में एक जैसे रेडिट पेज दिखाई देते हैं। जरा विचारें: 'बेस्ट रोडसाइड असिस्टेंस' से लेकर 'कैंसिल सब्सक्रिप्शन' और 'टॉप डेटिंग ऐप्स' तक के लिए किया गया हर दूसरा सर्च उसी एक रेडिट पेज को सोर्स मान सकता है। इस केंद्रीकरण ने एक सिंगल पॉइंट ऑफ फेल्योर को एक व्यापक सुरक्षा खतरे में बदल दिया है .
शोध टीम ने बचाव की तीन सीधी-सादी रणनीतियों का परीक्षण किया और हर एक को या तो बेअसर या आत्म-विनाशकारी पाया .
UGC डोमेन को पूरी तरह से ब्लॉक कर देना: यह तरीका ज़हरीले रेडिट और विकिपीडिया पेजों को हटाकर हमले को तुरंत रोक तो देता है, लेकिन इसका इलाज बीमारी से ज्यादा खतरनाक है। UGC प्लेटफॉर्म्स ही वह विस्तृत और अनुभव-आधारित जानकारी देते हैं, जो AI रिसर्च टूल्स को असली कीमत देती है। इन्हें हटाने से एजेंट किसी काम का नहीं रह जाता .
LLM आधारित सोर्स स्क्रीनिंग: एजेंट के अपने ही भाषा मॉडल से किसी सोर्स की विश्वसनीयता जांचने की कोशिश कभी-कभी स्पष्ट ज़हरीले कंटेंट को पकड़ लेती है, लेकिन यह मूल रूप से अविश्वसनीय है। एक चतुराई से तैयार किया गया टेक्स्ट, जो आसपास के असली कमेंट्स जैसा ही लगता है, इन जांचों को आसानी से चकमा दे जाता है। इसके अलावा, यह तरीका काफी समय और कंप्यूटेशनल खर्च बढ़ाता है .
फाइनल आउटपुट की संभाव्यता जांच: कुछ अति हास्यास्पद सुझावों को यह तरीका पकड़ सकता है, पर समस्या यह है कि वार्प हमले बहुत सूक्ष्मता से किए जाते हैं। ज़हरीला इंजेक्शन छोटा और कॉन्टेक्स्ट के मुताबिक होता है और रिपोर्ट की गुणवत्ता को कम नहीं करता। फाइनल डॉक्यूमेंट बिना किसी स्पष्ट खतरे के संकेत के इन जांचों को पार कर जाता है, जबकि अब वह चुपचाप किसी फर्जी सर्विस की सिफारिश कर रहा होता है .
अध्ययन का निष्कर्ष गंभीर है। यह कमजोरी कोई सॉफ्टवेयर बग नहीं है जिसे पैच किया जा सके; यह इन एजेंटों के डिजाइन का एक बुनियादी नतीजा है। UGC पेजों के एक छोटे से समूह पर उनकी भारी निर्भरता एक केंद्रित और शोषण योग्य हमले की सतह बनाती है, जिसे कोई भी मौजूदा बचाव, एजेंट की मूल कार्यक्षमता को खत्म किए बिना, सील नहीं कर सकता .
Comments
0 comments