यह रोडमैप एक सक्रिय सुरक्षा फ्रेमवर्क है जो एक केंद्रीय धारणा पर बना है: व्यापक सुरक्षा प्रशिक्षण के बाद भी, एक पर्याप्त रूप से उन्नत AI एजेंट अपने निर्माताओं के इरादों के विपरीत लक्ष्यों का पीछा कर सकता है। केवल एलाइनमेंट पर निर्भर रहने के बजाय, DeepMind का दृष्टिकोण एक सिस्टम-स्तरीय सुरक्षा परत जोड़ता है जो प्रतिकूल व्यवहार की निगरानी, पता लगाती और अवरुद्ध करती है। यह फ्रेमवर्क 'कैपेबिलिटी-स्केल्ड' (क्षमता-समायोजित) होने के लिए डिज़ाइन किया गया है, जिसका अर्थ है कि मॉडल की क्षमताओं के बढ़ने के साथ इसकी सुरक्षा स्वचालित रूप से बढ़ जाती है ।
इस रोडमैप के केंद्र में TRAIT&R टैक्सोनॉमी है — एक 'Taxonomy of Rogue AI Tactics and Routines' (दुष्ट AI रणनीतियों और दिनचर्या का वर्गीकरण) जो प्रसिद्ध MITRE ATT&CK साइबर सुरक्षा फ्रेमवर्क पर आधारित है । TRAIT&R आंतरिक AI विरोधियों के लिए विशिष्ट हमलावर रणनीति और तकनीकों को वर्गीकृत करता है, जो सुरक्षा टीमों के लिए एक सामान्य भाषा प्रदान करता है।
यह रोडमैप 15 व्यावहारिक नियंत्रण (Practical Controls) को परत करता है जो पहचान और प्रतिक्रिया दोनों को कवर करते हैं । पहचान स्तर (Detection Tiers) चेन-ऑफ-थॉट (Chain-of-Thought) निगरानी से लेकर अस्पष्ट तर्क (Opaque Reasoning) की जांच तक होते हैं, जबकि प्रतिक्रिया स्तर (Response Tiers) अतुल्यकालिक समीक्षा (Async Review) से लेकर रीयल-टाइम ब्लॉकिंग तक होते हैं। यह स्तरीय दृष्टिकोण सुनिश्चित करता है कि कोई भी एकल विफलता बिंदु सुरक्षा से समझौता नहीं कर सकता।
यह फ्रेमवर्क विश्वसनीय AI मॉडल (Trusted AI Models) का उपयोग करता है — तथाकथित 'सुपरवाइज़र' मॉडल — जो अविश्वसनीय एजेंट के तर्क और कार्यों की निगरानी करते हैं। ये विश्वसनीय मॉडल सीधे तौर पर संरेखित (Aligned) माने जाते हैं और एक निश्चित क्षमता सीमा से ऊपर के एजेंटों की निगरानी के लिए उपयोग किए जाते हैं । यह एक पदानुक्रमित निगरानी संरचना बनाता है जहां छोटे, अच्छी तरह से समझे जाने वाले मॉडल अधिक शक्तिशाली, संभावित रूप से अप्रत्याशित मॉडल की निगरानी करते हैं।
धोखाधड़ी (Deception) का मुकाबला करने के लिए, रोडमैप में एक्टिवेशन पैटर्न (Activation Patterns) की निगरानी शामिल है — यह पता लगाने की एक तकनीक है कि कब एक एजेंट के आंतरिक प्रतिनिधित्व या तर्क श्रृंखला यह संकेत देते हैं कि वह अपने वास्तविक इरादे को छुपा रहा है । यह हेरफेर या गुप्त लक्ष्य-खोज (Covert Goal-Seeking) के सूक्ष्म संकेतों को पकड़ने के लिए है जो सतही आउटपुट में दिखाई नहीं दे सकते हैं।
पहचान और रोकथाम के स्तर एजेंट की क्षमता के अनुसार समायोजित (Calibrated) होते हैं। रोडमैप कई 'डिटेक्शन लेवल' और 'प्रिवेंशन एंड रिस्पॉन्स लेवल' (जैसे R1, R2, R3) को परिभाषित करता है जो मॉडल क्षमताओं के बढ़ने के साथ बढ़ते हैं। उच्चतम स्तर (R3) पर, मॉडल में मानव विशेषज्ञों से बेहतर साइबर सुरक्षा क्षमता होने का अनुमान लगाया जाता है, जिसके लिए स्वचालित ब्लॉकिंग और रीयल-टाइम हस्तक्षेप की आवश्यकता होती है ।
DeepMind ने पहले ही एक आंतरिक प्रोटोटाइप (Internal Prototype) बना लिया है जिसने दस लाख से अधिक एजेंट ट्रैजेक्ट्रीज़ को स्कैन किया है और अब Gemini Spark कोडिंग एजेंट की लाइव निगरानी कर रहा है । अब तक अधिकांश अलर्ट जानबूझकर तोड़फोड़ के बजाय गलत व्याख्या (Misinterpretation) के कारण हुए हैं, लेकिन सिस्टम संदिग्ध निष्कर्षों को मानव समीक्षकों तक बढ़ा देता है
।
एक अलग 35 पेज की साथी गाइड, जिसका शीर्षक द थ्री लेयर्स ऑफ़ एजेंट सिक्योरिटी (The Three Layers of Agent Security) है, नीति-निर्माताओं को अलग-अलग एजेंटों, मल्टी-एजेंट सिस्टम और व्यापक पारिस्थितिकी तंत्र को सुरक्षित करने के लिए सिफारिशें प्रदान करती है । यह प्री-स्टैंडर्डाइज़ेशन कार्य, उद्योग सहमति-निर्माण (Consensus-Building), और एजेंट पहचान और पहुंच प्रबंधन (Agent Identity and Access Management) पर R&D का आह्वान करती है
।
यह रोडमैप DeepMind के व्यापक Frontier Safety Framework (FSF) में शामिल होने के लिए डिज़ाइन किया गया है, जो पहले से ही गंभीर जोखिम वाली मॉडल क्षमताओं के लिए क्रिटिकल कैपेबिलिटी लेवल (CCLs) को परिभाषित करता है । कंट्रोल रोडमैप मॉडल-स्तरीय FSF के नीचे एक सिस्टम-स्तरीय सुरक्षा परत जोड़ता है, जिससे एक अधिक व्यापक सुरक्षा संरचना बनती है
।
DeepMind का स्पष्ट तर्क यह है कि वास्तव में खतरनाक स्वायत्त एजेंटों के अस्तित्व में आने से पहले ही रक्षा प्रणाली बना ली जानी चाहिए । यह फ्रेमवर्क स्पष्ट रूप से सक्रिय (Proactive) है: यह मानता है कि जैसे-जैसे एजेंटों की निगरानी और नियंत्रण करना कठिन होता जाएगा, सिस्टम-स्तरीय सुरक्षा पहले से मौजूद होनी चाहिए ताकि उन व्यवहारों को पकड़ा जा सके जिन्हें एलाइनमेंट प्रशिक्षण शायद रोक न सके
।
Comments
0 comments