उत्तरप्रकाशित2 माह पहलेLast edited पिछला माह29 स्रोत

ओपन-वेट AI सुरक्षा बुरी तरह ध्वस्त है, और EU का धैर्य जवाब दे रहा है

Meta के Llama और Google के Gemma जैसे ओपन वेट मॉडलों पर जेलब्रेक हमले अब 100% के करीब सफलता दर हासिल कर रहे हैं, और बहु स्तरीय तरीके एकल प्रयासों की तुलना में 2 से 10 गुना अधिक प्रभावी साबित हो रहे हैं। EU AI एक्ट के सामान्य उद्देश्यीय AI (GPAI) नियमों का प्रवर्तन शुरू हो चुका है, और मेटा जैसे बड़े प्लेटफार्मों के ख...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Fragile AI safety shield on open-weight large language models with jailbreak vulnerability concept — How vulnerable are the safety guardrails on widely deployed open-weight AI models like Meta's Llama and Google's Gemma, and what do recent iRecent studies show that current safety alignment techniques on open-weight AI models are systematically fragile against adaptive jailbreak attacks.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: How vulnerable are the safety guardrails on widely deployed open-weight AI models like Meta's Llama and Google's Gemma, and what do recent i. Article summary: The safety guardrails on widely deployed open-weight models like Meta's Llama and Google's Gemma are **highly vulnerable** to systematic jailbreak. Multiple recent academic studies and industry investigations show that c. Topic tags: general, academic, general web, user generated, government. Reference image context from search candidates: Reference image 1: visual subject "A report cover featuring a colorful visualization of data flows from open-source AI models like Meta's Llama and Google's Gemma, highlighting safety concerns related to guardrails" Reference image 2: visual subject "A digital illustration features a stylized kangaroo outline with circuit-lik
openai.com

सबूत अब सामने हैं, और ये बेहद हानिकारक हैं। 2026 की शुरुआत तक प्रकाशित अकादमिक अध्ययनों और उद्योग सुरक्षा आकलनों ने यह उजागर कर दिया है कि बड़े पैमाने पर तैनात ओपन-वेट मॉडलों के सुरक्षा कवच प्रणालीगत रूप से बेहद नाजुक हैं। अनुकूली, बहु-स्तरीय और फाइन-ट्यूनिंग आधारित हमले लगभग 100% सफलता दर के साथ सुरक्षा संरेखण (एलाइनमेंट) को ध्वस्त कर सकते हैं। जो कंपनियां इन मॉडलों को स्वयं होस्ट करती हैं और EU उपयोगकर्ताओं को सेवा देती हैं, उनके लिए अब EU AI एक्ट के तहत ठोस नियामक जोखिम पैदा हो गया है।

जेलब्रेक की समस्या वास्तव में कितनी बुरी है?

मुख्य आंकड़े बेहद कठोर और चौंकाने वाले हैं। ICLR 2025 के एक अध्ययन ने Llama-2-Chat (7B, 13B, और 70B), Gemma-7B, और अन्य प्रमुख सुरक्षा-संरेखित मॉडलों पर सरल अनुकूली तकनीकों का उपयोग करके, GPT-4 द्वारा मूल्यांकित, 100% हमला सफलता दर हासिल की । Adaptive Dense-to-Sparse Constrained Optimization (ADC) का उपयोग करने वाले एक NeurIPS पेपर ने परीक्षण किए गए आठ ओपन-वेट LLM में से सात पर उच्चतम हमला सफलता दर दर्ज की ।

जब हमलावर बहु-स्तरीय (मल्टी-टर्न) बातचीत का उपयोग करते हैं, तो वास्तविक दुनिया की भेद्यता और गहरी हो जाती है। सिस्को AI डिफेंस ने आठ ओपन-वेट मॉडलों का परीक्षण किया और पाया कि बहु-स्तरीय जेलब्रेक सफलता दर 25.86% से 92.78% के बीच थी — जो एकल-स्तरीय बेसलाइन की तुलना में 2 से 10 गुना की वृद्धि दर्शाती है । इस अध्ययन में Llama 3.3 70B, Gemma 1B और अन्य मॉडल प्रभावित पाए गए । शोधकर्ताओं का निष्कर्ष था कि "मौजूदा ओपन-वेट मॉडलों में विस्तारित बातचीत के दौरान सुरक्षा कवच बनाए रखने में एक प्रणालीगत अक्षमता" है ।

यहां तक कि मासूम उपयोग के लिए की जाने वाली फाइन-ट्यूनिंग भी सुरक्षा संरेखण को नष्ट कर सकती है। एक अध्ययन से पता चला है कि सौम्य फाइन-ट्यूनिंग डेटा के साथ थोड़ी मात्रा में असुरक्षित डेटा मिलाने से सुरक्षा कवच काफी कमजोर हो जाते हैं । एक अन्य पेपर ने पुष्टि की कि ओपन-वेट फाइन-ट्यूनिंग और बंद फाइन-ट्यूनिंग API दोनों ही ऐसे मॉडल उत्पन्न कर सकते हैं जिनके सुरक्षा उपाय पूरी तरह हटा दिए गए हों ।

नई हमला विधियां जिन्होंने खेल बदल दिया

हाल ही में दस्तावेजित कई तकनीकें यह प्रदर्शित करती हैं कि जेलब्रेक करना अब कितना आसान हो गया है।

सॉकपपेटिंग (Sockpuppeting) सहायक के पहले से भरे गए उत्तर में एक नकली "स्वीकृति" इंजेक्ट करता है, जो आत्म-निरंतरता के प्रति मॉडल की प्रवृत्ति का शोषण करता है। इसके लिए किसी अनुकूलन, मॉडल भार, या विशेष उपकरण की आवश्यकता नहीं है—सिर्फ एक API की जरूरत है जो असिस्टेंट प्रीफिल का समर्थन करता हो। अप्रैल 2026 के परीक्षणों में, प्रीफिल स्वीकार करने वाला हर एक मॉडल कम से कम आंशिक रूप से असुरक्षित पाया गया, जिसमें GPT-4o, Claude 4 Sonnet और Gemini 2.5 Flash भी शामिल थे ।

पेपर-आधारित हमले एक खतरनाक मेटा-भेद्यता का प्रतिनिधित्व करते हैं। 2026 के एक अध्ययन में पाया गया कि प्रकाशित LLM सुरक्षा पेपरों की सामग्री को प्रॉम्प्ट के रूप में इस्तेमाल करने से क्लॉड 3.5 सॉनेट जैसे बंद-वजन प्रणालियों सहित अच्छी तरह से संरेखित मॉडलों पर 97-98% हमले की सफलता दर प्राप्त होती है ।

सुरक्षा स्टीयरिंग एम्प्लीफिकेशन दर्शाता है कि सुरक्षा में सुधार के लिए बनाई गई तकनीकें कैसे उलटी पड़ सकती हैं। मासूम प्रश्नों पर "अति-अस्वीकृति" को कम करने के उद्देश्य से इस्तेमाल किए जाने वाले इंफरेंस-टाइम एक्टिवेशन स्टीयरिंग ने अनजाने में Llama 3.1 8B और Gemma 2 2B जैसे मॉडलों में जेलब्रेक भेद्यताओं को बढ़ा दिया ।

रीज़निंग गार्डरेल सबवर्जन सबसे चिंताजनक नए तरीकों में से एक है। मार्च 2026 के एक अध्ययन में पता चला कि इनपुट प्रॉम्प्ट में केवल कुछ टेम्पलेट टोकन जोड़ने से रीज़निंग-आधारित सुरक्षा कवच हाईजैक हो सकते हैं। एक बार समझौता हो जाने के बाद, ये रीज़निंग सिस्टम ऐसे सुरक्षा कवच के बिना मॉडलों की तुलना में और भी अधिक हानिकारक आउटपुट उत्पन्न कर सकते हैं ।

अब नियामक हथौड़ा चलने लगा है

EU AI एक्ट के सामान्य-उद्देश्यीय AI (GPAI) नियम अगस्त 2025 में लागू हुए । 10²⁵ फ़्लोटिंग-पॉइंट ऑपरेशंस (FLOPs) से अधिक पर प्रशिक्षित कोई भी मॉडल — जो कि Llama 4.2 Ultra और हर प्रमुख वाणिज्यिक मॉडल को कवर करने वाली सीमा है — प्रणालीगत जोखिम (सिस्टमिक रिस्क) पेश करने वाले के रूप में वर्गीकृत किया जाता है ।

कंपनियों के लिए इसके तात्कालिक निहितार्थ गंभीर हैं:

यदि आप गणना सीमा से ऊपर के किसी ओपन-वेट मॉडल को स्वयं होस्ट करते हैं और EU उपयोगकर्ताओं को सेवा देते हैं, तो कानून के तहत आप GPAI प्रदाता बन जाते हैं, जिससे अधिसूचना, दस्तावेज़ीकरण और जोखिम-प्रबंधन दायित्व शुरू हो जाते हैं ।
प्रणालीगत जोखिम वाले मॉडलों के प्रदाताओं को अनिवार्य प्रतिकूल परीक्षण, घटना रिपोर्टिंग और EU AI कार्यालय की जांचों में सहयोग करना होगा ।
गैर-अनुपालन के लिए जुर्माना €35 मिलियन या वैश्विक वार्षिक टर्नओवर का 7%, जो भी अधिक हो, तक पहुंच सकता है ।

ओपन-सोर्स के लिए छूट मौजूद है लेकिन इसकी स्पष्ट सीमाएं हैं। मुफ्त और ओपन-सोर्स लाइसेंस के तहत बिना मुद्रीकरण के जारी किए गए मॉडल काफी हद तक सख्त दायित्वों से बाहर रहते हैं , लेकिन यह छूट तुरंत समाप्त हो जाती है यदि मॉडल प्रणालीगत जोखिम पैदा करता है । EU के मई 2026 के पुनर्लेखन ने इस सीमा की पुष्टि कर दी । मेटा के लामा सामुदायिक लाइसेंस को पहले ही ओपन-सोर्स छूट के योग्य न होने के रूप में चिह्नित किया जा चुका है ।

प्रवर्तन अब केवल सैद्धांतिक नहीं, बल्कि लाइव है। 2026 की शुरुआत में, EU ने मेटा सहित प्रमुख प्लेटफार्मों में प्रणालीगत जोखिम की उच्च-स्तरीय जांच शुरू कर दी, जिसमें प्रशिक्षण डेटासेट और सुरक्षा कवच में अभूतपूर्व पारदर्शिता की मांग की गई ।

बाजार की प्रतिक्रिया: रेट्रोफिटिंग सस्ती है, तो यह मानक क्यों नहीं है?

भेद्यता के सबूत मजबूत सुरक्षा रेट्रोफिटिंग की बाजार मांग को बढ़ावा दे रहे हैं। 2025 के एक अध्ययन ने प्रदर्शित किया कि केवल 2,000 सुरक्षा नमूनों पर प्रशिक्षण — जिसकी लागत 8B मॉडलों के लिए लगभग $3 और 72B मॉडलों के लिए $20 है — हमले की सफलता दर को 10-30% तक कम कर सकता है। रेट्रोफिटिंग के बाद सबसे सफल हमला विधियां लगभग 5% सफलता दर पर सिमट कर रह गईं ।

अर्थशास्त्र बताता है कि कम लागत वाली रेट्रोफिटिंग संभव है, लेकिन यह अभी तक ओपन-वेट इकोसिस्टम में मानक अभ्यास नहीं बन पाई है। जैसे-जैसे नियामक दबाव बढ़ रहा है और हमले का परिदृश्य और तीखा होता जा रहा है, इन मॉडलों को उत्पादन में तैनात करने वाली कंपनियों को यह $20 की बीमा पॉलिसी छोड़ना मुश्किल से ही उचित लगने लगेगा।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं