Di tengah-tengah peta jalan ini adalah taksonomi TRAIT&R — singkatan bagi Taxonomy of Rogue AI Tactics and Routines, yang diilhamkan daripada rangka kerja keselamatan siber terkenal, MITRE ATT&CK . TRAIT&R mengkategorikan taktik dan teknik penyerang khusus untuk musuh AI dalaman, menyediakan bahasa yang seragam untuk pasukan keselamatan.
Peta jalan ini menyusun 15 kawalan praktikal merangkumi pengesanan dan respons . Tahap pengesanan terdiri daripada pemantauan chain-of-thought kepada penelitian penaakulan legap, manakala tahap respons terdiri daripada semakan tak segerak kepada penyekatan masa nyata. Pendekatan berlapis ini memastikan tiada satu titik kegagalan yang boleh menjejaskan keselamatan.
Rangka kerja ini menggunakan model AI yang dipercayai (dipanggil model 'supervisor') untuk memantau penaakulan dan tindakan ejen yang tidak dipercayai. Model yang dipercayai ini diandaikan lurus dan sejajar, digunakan untuk mengawasi ejen yang melebihi ambang keupayaan tertentu . Ini mewujudkan struktur pemantauan hierarki di mana model yang lebih kecil dan difahami dengan baik memerhati model yang lebih berkuasa dan berpotensi tidak boleh diramal.
Untuk menentang penipuan, peta jalan ini merangkumi pemantauan corak pengaktifan (activation patterns) — teknik untuk mengesan apabila representasi dalaman atau rangkaian penaakulan ejen menunjukkan ia menyembunyikan niat sebenarnya . Ini bertujuan menangkap tanda-tanda halus manipulasi atau pencarian matlamat secara rahsia yang mungkin tidak kelihatan pada output permukaan.
Tahap pengesanan dan pencegahan dikalibrasi mengikut keupayaan ejen. Peta jalan mentakrifkan pelbagai 'tahap pengesanan' dan 'tahap pencegahan dan respons' (contohnya, R1, R2, R3) yang meningkat apabila keupayaan model bertambah. Pada tahap tertinggi (R3), model dianggap mempunyai keupayaan keselamatan siber melebihi pakar manusia, memerlukan penyekatan automatik dan campur tangan masa nyata .
DeepMind telah membina prototaip dalaman yang telah mengimbas lebih sejuta trajektori ejen dan kini memantau ejen pengekodan Gemini Spark secara langsung. Setakat ini, kebanyakan amaran berpunca daripada salah tafsir dan bukan sabotaj yang disengajakan, tetapi sistem akan menaikkan penemuan yang mencurigakan kepada pemeriksa manusia .
Satu panduan pendamping setebal 35 muka surat yang bertajuk The Three Layers of Agent Security menyediakan cadangan untuk penggubal dasar tentang cara melindungi ejen individu, sistem pelbagai ejen, dan ekosistem yang lebih luas. Ia menyeru kerja pra-piawaian, pembinaan konsensus industri, dan penyelidikan pembangunan (R&D) dalam pengurusan identiti dan akses untuk ejen .
Peta jalan ini direka untuk diserap ke dalam Frontier Safety Framework (FSF) DeepMind yang lebih luas, yang sudah mentakrifkan Tahap Keupayaan Kritikal (CCL) untuk keupayaan model berisiko tinggi. Control Roadmap menambah lapisan keselamatan peringkat sistem di bawah FSF peringkat model, mewujudkan seni bina keselamatan yang lebih komprehensif .
Rasional yang dinyatakan DeepMind ialah pertahanan mesti dibina sebelum ejen autonomi yang benar-benar berbahaya wujud. Rangka kerja ini secara eksplisit proaktif: ia mengandaikan bahawa apabila ejen menjadi semakin sukar untuk diawasi dan dikawal, keselamatan peringkat sistem mesti sudah tersedia untuk menangkap tingkah laku yang mungkin tidak dapat dicegah oleh latihan alignment .
Comments
0 comments