Yol haritasının kalbinde, siber güvenlik dünyasının iyi bilinen MITRE ATT&CK çerçevesinden esinlenilerek oluşturulan TRAIT&R taksonomisi ("Rogue AI Taktik ve Rutinleri Taksonomisi") yer alıyor . Bu taksonomi, dahili AI tehditlerine özgü saldırı taktiklerini ve tekniklerini kategorize ederek güvenlik ekiplerine ortak bir dil sağlıyor.
Yol haritası, tespit ve müdahale olmak üzere iki ana başlıkta toplanan 15 pratik savunma katmanı sunuyor .
Bu katmanlı yapı, tek bir güvenlik açığının tüm sistemi çökertmesini engellemeyi amaçlıyor.
Sistem, daha güçlü ve potansiyel olarak öngörülemez ajanları denetlemek için güvenilir AI modellerinden ("denetçi" modeller) faydalanıyor. Bu denetçi modellerin basitçe hizalanmış olduğu varsayılıyor ve belirli bir yetenek eşiğinin üzerindeki ajanları izlemek için kullanılıyor . Bu, daha küçük ve iyi tanımlanmış modellerin daha güçlü ve potansiyel olarak tehlikeli ajanları gözetlediği hiyerarşik bir yapı oluşturuyor.
Yol haritası, bir ajanın gerçek niyetini gizlediğine dair işaretleri (aldatma) tespit etmek için aktivasyon kalıplarını (activation patterns) izlemeyi içeriyor . Bu teknik, bir ajanın içsel temsillerinin veya akıl yürütme zincirlerinin, zararlı bir hedefe işaret edip etmediğini analiz ederek, yüzeyde görünmeyen manipülasyon belirtilerini yakalamayı hedefliyor.
Tespit ve önleme seviyeleri, ajanın yeteneklerine göre kalibre ediliyor . Yol haritası, model yetenekleri arttıkça otomatik olarak devreye giren "tespit seviyeleri" ve "önleme ve müdahale seviyeleri" (R1, R2, R3 gibi) tanımlıyor. En üst seviyede (R3), modellerin siber güvenlik yeteneklerinin insan uzmanları aştığı varsayılarak, otomatik engelleme ve gerçek zamanlı müdahale gerekiyor.
DeepMind teorik çerçevesini pratiğe de dökmüş durumda. Şirket, bir milyondan fazla ajan yolculuğunu (trajectory) tarayan ve halihazırda Gemini Spark kodlama ajanını canlı olarak izleyen bir dahili prototip geliştirdi . Şimdiye kadar oluşan uyarıların çoğu, kasıtlı sabotajdan ziyade yanlış yorumlamalardan kaynaklanıyor. Ancak sistem, şüpheli bulguları insan denetçilere ileterek inceleme sürecini başlatıyor.
Yol haritasına ek olarak, The Three Layers of Agent Security (Ajan Güvenliğinin Üç Katmanı) başlıklı 35 sayfalık bir kılavuz yayınlandı. Bu kılavuz, politika yapıcılara bireysel ajanların, çoklu ajan sistemlerinin ve daha geniş ekosistemin güvenliğini sağlamak için tavsiyeler sunuyor. Ayrıca, standardizasyon öncesi çalışmalar, sektörde fikir birliği oluşturulması ve ajan kimlik ve erişim yönetimi konularında Ar-Ge çağrısı yapıyor .
AI Kontrol Yol Haritası, DeepMind'ın daha geniş Frontier Güvenlik Çerçevesi (FSF) ile uyumlu olacak şekilde tasarlandı . FSF, yüksek riskli model yetenekleri için Kritik Yetenek Seviyelerini (CCL'ler) tanımlarken, yeni yol haritası bu model seviyesindeki koruyucu kalkanın altına bir sistem seviyesi güvenlik katmanı ekleyerek daha kapsamlı bir güvenlik mimarisi oluşturuyor.
DeepMind'ın bu adımının arkasındaki mantık oldukça net: Savunmalar, gerçekten tehlikeli otonom ajanlar var olmadan önce inşa edilmelidir . Şirket, ajanların denetlenmesi ve kontrol altında tutulması zorlaştıkça, hizalama eğitiminin önleyemediği davranışları yakalamak için sistem seviyesi güvenliğin hazır olması gerektiğini vurguluyor. Bu proaktif yaklaşım, yapay zeka güvenliği alanında önemli bir dönüm noktası olarak değerlendiriliyor.
Comments
0 comments