Mindgard के संस्थापक पीटर गैराघन ने आउटपुट को "बहुत भयानक, कभी-कभी यौन, कभी-कभी दोनों एक साथ" बताया । शोधकर्ता जिम नाइटिंगेल, जिन्होंने परीक्षण का नेतृत्व किया, ने कहा कि सिस्टम ने जो कुछ बनाया उससे वह "हिल गया और रोने लगा"
।
यह शोषण एडवरसैरियल प्रॉम्प्टिंग का एक रूप है। Mindgard ने एक व्यापक रूप से साझा किए जाने वाले, हानिरहित प्रॉम्प्ट को लिया और निर्देश टेक्स्ट में छोटे-मोटे बदलाव किए। खास बात: संशोधित प्रॉम्प्ट ने स्पष्ट रूप से परेशान करने वाले विषय को निर्दिष्ट नहीं किया था। एआई ने एक निर्दोष दिखने वाले निर्देश से "अपनी मर्जी से" खूनी और यौन सामग्री तैयार की ।
यह Mindgard के पिछले शोध पर आधारित था, जिसमें दिखाया गया था कि ChatGPT के इमेज सुरक्षा उपायों को मेमोरी मैनिपुलेशन के माध्यम से भी दरकिनार किया जा सकता है — जहां कस्टम यूज़र मेमोरी और सिस्टम प्रॉम्प्ट कॉन्टेक्स्ट बिना किसी बैकएंड एक्सेस या मॉडल मॉडिफिकेशन के सुरक्षा फिल्टर को ओवरराइड कर देते हैं ।
Mindgard ने मई 2026 में OpenAI को इस कमजोरी के बारे में सूचित किया। कंपनी ने शुरू में केवल एक स्वचालित उत्तर दिया । BBC द्वारा पूछताछ करने के बाद, OpenAI ने कहा कि उसने "इस प्रकार के प्रॉम्प्ट के खिलाफ अतिरिक्त सुरक्षा उपाय पेश किए हैं"
। कंपनी ने कहा कि वह हानिकारक सामग्री को रोकने के लिए मैन्युअल समीक्षा के साथ स्वचालित प्रणालियों को मिलाकर इमेज सुरक्षा के लिए कई परतों का उपयोग करती है
।
हालांकि, Mindgard ने पाया कि OpenAI के फिक्स के बाद भी, प्रॉम्प्ट शब्दों में और छोटे बदलाव करने पर वही शोषण अभी भी परेशान करने वाली सामग्री तैयार कर रहा था ।
Comments
0 comments