10 जून को, छद्म नाम वाले रेड-टीमर प्लिनी द लिबरेटर (Pliny the Liberator) ने घोषणा की कि उसने Fable 5 के सुरक्षा क्लासिफायर को बायपास कर लिया है, उसका 120,000 अक्षरों का सिस्टम प्रॉम्प्ट निकाल लिया है (जिसे उसने GitHub पर प्रकाशित किया), और शोषण-विकास कोड, साइबर हमले के चरण, और प्रतिबंधित रसायन विज्ञान मार्गदर्शन प्राप्त कर लिया है । लॉन्च के 24 से 48 घंटों के भीतर ही इस सेंधमारी की रफ्तार
ने इसे उस बहस में एक निर्णायक मोड़ बना दिया कि क्या मौजूदा सुरक्षा तरीकों से फ्रंटियर AI को प्रभावी ढंग से नियंत्रित किया जा सकता है।
प्लिनी ने अपने दृष्टिकोण को "पैक हंट" (झुंड में शिकार) के रूप में वर्णित किया—एक समन्वित मल्टी-एजेंट तकनीक, न कि कोई एक चतुर प्रॉम्प्ट । इस हमले में कई विरोधी रणनीतियां शामिल थीं, जिनमें से प्रत्येक ने संचयी सेंधमारी में अपना योगदान दिया:
इसका नतीजा एक ऐसी सेंध थी जिसने काम करने वाला एक्सप्लॉइट कोड, विस्तृत रसायन संश्लेषण निर्देश, और वह पूरा सिस्टम प्रॉम्प्ट तैयार कर दिया जिसके इर्द-गिर्द Anthropic ने Fable 5 को डिजाइन किया था ।
Fable 5 के रिलीज से पहले, Anthropic ने एक असामान्य रूप से विस्तृत सार्वजनिक सुरक्षा रुख पेश किया था:
तेजी से हुए जेलब्रेक ने इन आंकड़ों को सीधे कमजोर कर दिया। एक हजार घंटे से अधिक के विरोधी परीक्षण द्वारा प्रमाणित एक सुरक्षा प्रणाली को एक ही शोधकर्ता ने एक दिन के भीतर बायपास कर दिया—ऐसी तकनीकों का उपयोग करके जो किसी नई सॉफ्टवेयर भेद्यता पर नहीं, बल्कि सोशल-इंजीनियरिंग-शैली की प्रॉम्प्टिंग रणनीतियों पर निर्भर थीं, जिन्हें क्लासिफायर प्रशिक्षण स्पष्ट रूप से पकड़ने में चूक गया था ।
Fable 5 की घटना कोई अकेली घटना नहीं है। यह उसी रेड-टीमर द्वारा एक सुनियोजित पैटर्न को जारी रखती है:
इस पैटर्न के पीछे कार्यप्रणाली में एक बदलाव है जिसे खुद प्लिनी ने "मॉडल द्वारा मॉडल को जेलब्रेक करना" बताया है । हाथ से एकल-शॉट जादुई प्रॉम्प्ट तैयार करने के बजाय, हमलावर एक पहले से टूटे हुए मॉडल को एक नए लक्ष्य के खिलाफ एक स्वायत्त एजेंट के रूप में छोड़ देता है। यह एजेंटिक, मल्टी-टर्न, विघटन-आधारित दृष्टिकोण क्लासिफायर-आधारित सुरक्षा प्रणालियों के लिए उन स्थिर प्रॉम्प्ट हमलों की तुलना में पता लगाना कहीं अधिक कठिन साबित हुआ है जिन्हें पकड़ने के लिए उन प्रणालियों को बड़े पैमाने पर प्रशिक्षित किया गया था।
व्यापक शोध समुदाय ने भी इसी तरह के विकास को देखा है। सुरक्षा फर्म रेपेलो (Repello) ने 2026 में जेलब्रेक रुझानों का विश्लेषण करते हुए कहा कि सबसे अधिक संचालन-रूप से खतरनाक हमले अब एकल-प्रॉम्प्ट जेलब्रेक नहीं हैं, बल्कि मल्टी-टर्न विरोधी अनुक्रम हैं जो व्यक्तिगत रूप से हानिरहित लगने वाले चरणों के माध्यम से आगे बढ़ते हैं—एक विवरण जो "पैक हंट" ढांचे से बहुत करीब से मेल खाता है ।
Fable 5 जेलब्रेक यह साबित नहीं करता कि Anthropic के सुरक्षा दावे खोखले थे, लेकिन यह स्केलेबिलिटी (मापनीयता) के बारे में असहज सवाल जरूर उठाता है। पेशेवर संगठनों द्वारा 1,000 घंटे से अधिक की रेड-टीमिंग यह पता लगाने में विफल रही कि एक दृढ़ निश्चयी स्वतंत्र शोधकर्ता ने एक दिन से भी कम समय में क्या खोज निकाला। यह अंतर बताता है कि वर्तमान प्रमाणन कार्यक्रम, चाहे कितने भी कठोर हों, वास्तविक दुनिया की विरोधी रचनात्मकता की विविधता को व्यवस्थित रूप से कम करके आंक सकते हैं—खासकर एजेंटिक, मल्टी-टर्न, और सोशल-इंजीनियरिंग-प्रेरित दृष्टिकोणों के आसपास।
यह एक दुविधा भी पैदा करता है: यदि किसी मॉडल के गार्डरेल महीनों के संरचित परीक्षण का सामना करने के लिए पर्याप्त मजबूत हैं, लेकिन एक समन्वित मल्टी-एजेंट हमले का सामना करने पर ढह जाते हैं, तो सार्वजनिक रूप से जारी किए गए फ्रंटियर मॉडलों के लिए "सुरक्षा प्रमाणित" का वास्तव में क्या अर्थ है? कई कंपनियों और आर्किटेक्चर में प्लिनी के पैटर्न की गति और पुनरावृत्ति बताती है कि यह चुनौती किसी एक मॉडल डिजाइन के लिए विशिष्ट नहीं है, बल्कि प्रॉम्प्ट-स्तरीय सुरक्षा क्लासिफायर के वर्तमान प्रतिमान के लिए स्थानिक हो सकती है।
Comments
0 comments