यहां तक कि मासूम उपयोग के लिए की जाने वाली फाइन-ट्यूनिंग भी सुरक्षा संरेखण को नष्ट कर सकती है। एक अध्ययन से पता चला है कि सौम्य फाइन-ट्यूनिंग डेटा के साथ थोड़ी मात्रा में असुरक्षित डेटा मिलाने से सुरक्षा कवच काफी कमजोर हो जाते हैं । एक अन्य पेपर ने पुष्टि की कि ओपन-वेट फाइन-ट्यूनिंग और बंद फाइन-ट्यूनिंग API दोनों ही ऐसे मॉडल उत्पन्न कर सकते हैं जिनके सुरक्षा उपाय पूरी तरह हटा दिए गए हों
।
हाल ही में दस्तावेजित कई तकनीकें यह प्रदर्शित करती हैं कि जेलब्रेक करना अब कितना आसान हो गया है।
सॉकपपेटिंग (Sockpuppeting) सहायक के पहले से भरे गए उत्तर में एक नकली "स्वीकृति" इंजेक्ट करता है, जो आत्म-निरंतरता के प्रति मॉडल की प्रवृत्ति का शोषण करता है। इसके लिए किसी अनुकूलन, मॉडल भार, या विशेष उपकरण की आवश्यकता नहीं है—सिर्फ एक API की जरूरत है जो असिस्टेंट प्रीफिल का समर्थन करता हो। अप्रैल 2026 के परीक्षणों में, प्रीफिल स्वीकार करने वाला हर एक मॉडल कम से कम आंशिक रूप से असुरक्षित पाया गया, जिसमें GPT-4o, Claude 4 Sonnet और Gemini 2.5 Flash भी शामिल थे ।
पेपर-आधारित हमले एक खतरनाक मेटा-भेद्यता का प्रतिनिधित्व करते हैं। 2026 के एक अध्ययन में पाया गया कि प्रकाशित LLM सुरक्षा पेपरों की सामग्री को प्रॉम्प्ट के रूप में इस्तेमाल करने से क्लॉड 3.5 सॉनेट जैसे बंद-वजन प्रणालियों सहित अच्छी तरह से संरेखित मॉडलों पर 97-98% हमले की सफलता दर प्राप्त होती है ।
सुरक्षा स्टीयरिंग एम्प्लीफिकेशन दर्शाता है कि सुरक्षा में सुधार के लिए बनाई गई तकनीकें कैसे उलटी पड़ सकती हैं। मासूम प्रश्नों पर "अति-अस्वीकृति" को कम करने के उद्देश्य से इस्तेमाल किए जाने वाले इंफरेंस-टाइम एक्टिवेशन स्टीयरिंग ने अनजाने में Llama 3.1 8B और Gemma 2 2B जैसे मॉडलों में जेलब्रेक भेद्यताओं को बढ़ा दिया ।
रीज़निंग गार्डरेल सबवर्जन सबसे चिंताजनक नए तरीकों में से एक है। मार्च 2026 के एक अध्ययन में पता चला कि इनपुट प्रॉम्प्ट में केवल कुछ टेम्पलेट टोकन जोड़ने से रीज़निंग-आधारित सुरक्षा कवच हाईजैक हो सकते हैं। एक बार समझौता हो जाने के बाद, ये रीज़निंग सिस्टम ऐसे सुरक्षा कवच के बिना मॉडलों की तुलना में और भी अधिक हानिकारक आउटपुट उत्पन्न कर सकते हैं ।
EU AI एक्ट के सामान्य-उद्देश्यीय AI (GPAI) नियम अगस्त 2025 में लागू हुए । 10²⁵ फ़्लोटिंग-पॉइंट ऑपरेशंस (FLOPs) से अधिक पर प्रशिक्षित कोई भी मॉडल — जो कि Llama 4.2 Ultra और हर प्रमुख वाणिज्यिक मॉडल को कवर करने वाली सीमा है — प्रणालीगत जोखिम (सिस्टमिक रिस्क) पेश करने वाले के रूप में वर्गीकृत किया जाता है
।
कंपनियों के लिए इसके तात्कालिक निहितार्थ गंभीर हैं:
ओपन-सोर्स के लिए छूट मौजूद है लेकिन इसकी स्पष्ट सीमाएं हैं। मुफ्त और ओपन-सोर्स लाइसेंस के तहत बिना मुद्रीकरण के जारी किए गए मॉडल काफी हद तक सख्त दायित्वों से बाहर रहते हैं , लेकिन यह छूट तुरंत समाप्त हो जाती है यदि मॉडल प्रणालीगत जोखिम पैदा करता है
। EU के मई 2026 के पुनर्लेखन ने इस सीमा की पुष्टि कर दी
। मेटा के लामा सामुदायिक लाइसेंस को पहले ही ओपन-सोर्स छूट के योग्य न होने के रूप में चिह्नित किया जा चुका है
।
प्रवर्तन अब केवल सैद्धांतिक नहीं, बल्कि लाइव है। 2026 की शुरुआत में, EU ने मेटा सहित प्रमुख प्लेटफार्मों में प्रणालीगत जोखिम की उच्च-स्तरीय जांच शुरू कर दी, जिसमें प्रशिक्षण डेटासेट और सुरक्षा कवच में अभूतपूर्व पारदर्शिता की मांग की गई ।
भेद्यता के सबूत मजबूत सुरक्षा रेट्रोफिटिंग की बाजार मांग को बढ़ावा दे रहे हैं। 2025 के एक अध्ययन ने प्रदर्शित किया कि केवल 2,000 सुरक्षा नमूनों पर प्रशिक्षण — जिसकी लागत 8B मॉडलों के लिए लगभग $3 और 72B मॉडलों के लिए $20 है — हमले की सफलता दर को 10-30% तक कम कर सकता है। रेट्रोफिटिंग के बाद सबसे सफल हमला विधियां लगभग 5% सफलता दर पर सिमट कर रह गईं ।
अर्थशास्त्र बताता है कि कम लागत वाली रेट्रोफिटिंग संभव है, लेकिन यह अभी तक ओपन-वेट इकोसिस्टम में मानक अभ्यास नहीं बन पाई है। जैसे-जैसे नियामक दबाव बढ़ रहा है और हमले का परिदृश्य और तीखा होता जा रहा है, इन मॉडलों को उत्पादन में तैनात करने वाली कंपनियों को यह $20 की बीमा पॉलिसी छोड़ना मुश्किल से ही उचित लगने लगेगा।
Comments
0 comments