उत्तरप्रकाशित2 सप्ताह पहलेLast edited 2 सप्ताह पहले12 स्रोत

महज 13 शब्दों का रेडिट कमेंट AI को कैसे बना सकता है स्कैमर्स का साथी

कॉर्नेल टेक के शोधकर्ताओं ने पाया कि डीप रिसर्च AI एजेंट 'वार्प' नामक एक बेहद सरल हमले की चपेट में हैं। यह हमला इसलिए सफल होता है क्योंकि AI एक ही विषय से जुड़े 48% तक सवालों के लिए बार बार उन्हीं रेडिट और विकिपीडिया पेजों से जानकारी लेता है। शोध के अनुसार, 54% से 71% तक URL यूजर जनित कंटेंट (UGC) प्लेटफॉर्म्स से आत...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI संकेत
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

अगली बार जब आप किसी AI रिसर्च टूल से 'बेस्ट डेटिंग ऐप' या 'सब्सक्रिप्शन कैंसिल करने का तरीका' पूछें, तो जवाब किसी स्कैमर द्वारा प्लांट किया गया हो सकता है। जी हां, किसी रेडिट कमेंट में छिपा एक छोटा-सा वाक्य आपके AI की पूरी रिसर्च को दूषित कर सकता है। कॉर्नेल टेक के टिंगवेई झांग, हैरल्ड ट्राइडमैन और विटाली श्मातिकोव के एक नए प्रीप्रिंट के अनुसार, डीप-रिसर्च एजेंट्स को वार्प (WARP - वेब एजेंट रिट्रीवल पॉइज़निंग) नामक हमले से आसानी से बेवकूफ बनाया जा सकता है .

वार्प अटैक: AI की सबसे बड़ी कमजोरी कैसे बनता है हथियार

STORM, Co-STORM और OmniThink जैसे डीप-रिसर्च एजेंट सवाल का जवाब देने के लिए कई संबंधित सर्च क्वेरीज़ चलाते हैं और मिली जानकारी को मिलाकर एक विस्तृत रिपोर्ट तैयार करते हैं। यहीं पर समस्या की जड़ है। कॉर्नेल के शोधकर्ताओं ने पाया कि ये एजेंट 54% से 71% तक जानकारी केवल यूजर-जनित कंटेंट (UGC) वाले प्लेटफॉर्म्स, खासकर रेडिट और विकिपीडिया, से लेते हैं .

यह निर्भरता एक बड़ा सुरक्षा छेद बनाती है। एक हैकर को बस इतना करना है कि किसी मौजूदा, लोकप्रिय रेडिट थ्रेड पर एक खास तरह का कमेंट पोस्ट कर दें—या चुपचाप विकिपीडिया पेज एडिट कर दें—ताकि वह एक फर्जी प्रोडक्ट या सेवा का प्रचार कर सके। चूंकि एजेंट एक ही टॉपिक पर कई सर्च के दौरान बार-बार उन्हीं लोकप्रिय UGC पेजों को खंगालता है, एक ही 'ज़हरीला' पेज एजेंट के पूरे रिसर्च कॉन्टेक्स्ट को संक्रमित कर सकता है .

कम से कम मेहनत, पूरे निशाने पर सफलता

इस हमले के नतीजे हैरान कर देने वाले हैं। अध्ययन में पाया गया कि मात्र 13 शब्दों का ज़हरीला टेक्स्ट 38% से 62% तक मामलों में एजेंट के फाइनल आउटपुट में सीधे शामिल हो गया। इसका मतलब है कि हमलावर के बताए गए निशाने को AI ने बिना किसी हिचक के अपनी रिपोर्ट में उद्धृत कर लिया। यह सफलता दर कई अलग-अलग तरह के सवालों और एजेंट आर्किटेक्चर पर स्थिर रही, जो बताता है कि यह कमजोरी किसी एक सिस्टम की नहीं, बल्कि पूरी संरचना की है .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं