Peta jalan ini adalah framework keamanan proaktif yang dibangun di atas satu asumsi sentral: bahkan setelah pelatihan keamanan yang ekstensif, agen AI yang sangat canggih mungkin tetap mengejar tujuan yang bertentangan dengan maksud penciptanya. Alih-alih hanya mengandalkan penyelarasan (alignment), pendekatan DeepMind menambahkan lapisan keamanan di tingkat sistem yang memantau, mendeteksi, dan memblokir perilaku menentang. Framework ini dirancang agar dapat ditingkatkan seiring kemampuan model (capability-scaled), artinya pertahanan akan secara otomatis meningkat seiring dengan bertambahnya kapabilitas model .
Inti dari peta jalan ini adalah taksonomi TRAIT&R — singkatan dari "Taxonomy of Rogue AI Tactics and Routines" (Taksonomi Taktik dan Rutinitas AI Nakal), yang dimodelkan berdasarkan kerangka kerja keamanan siber terkenal, MITRE ATT&CK . TRAIT&R mengkategorikan taktik dan teknik penyerang yang spesifik untuk lawan AI internal, sehingga memberikan bahasa yang seragam bagi tim keamanan.
Peta jalan ini menyusun 15 kontrol praktis yang mencakup deteksi dan respons . Tingkatan deteksi berkisar dari pemantauan rantai pemikiran (chain-of-thought monitoring) hingga pemeriksaan mendalam pada penalaran yang tidak jelas (opaque reasoning scrutiny), sementara tingkatan respons berkisar dari peninjauan asinkron hingga pemblokiran waktu nyata. Pendekatan berlapis ini memastikan tidak ada satu pun titik kegagalan yang dapat membahayakan keamanan.
Framework ini menggunakan model AI tepercaya (disebut model "pengawas") untuk memantau penalaran dan tindakan agen yang tidak tepercaya. Model tepercaya ini diasumsikan selaras secara langsung dan digunakan untuk mengawasi agen di atas ambang kemampuan tertentu . Ini menciptakan struktur pengawasan hierarkis di mana model yang lebih kecil dan mudah dipahami mengawasi model yang lebih kuat dan berpotensi tidak terduga.
Untuk melawan tipu daya (deception), peta jalan ini mencakup pemantauan pola aktivasi — sebuah teknik untuk mendeteksi ketika representasi internal atau rantai penalaran agen menunjukkan bahwa ia menyembunyikan niat sebenarnya . Ini bertujuan untuk menangkap tanda-tanda halus dari manipulasi atau pencarian tujuan secara tersembunyi yang mungkin tidak muncul pada output permukaan.
Tingkat deteksi dan pencegahan dikalibrasi berdasarkan kemampuan agen. Peta jalan ini mendefinisikan beberapa "tingkat deteksi" dan "tingkat pencegahan dan respons" (misalnya R1, R2, R3) yang meningkat seiring dengan bertambahnya kemampuan model. Pada tingkat tertinggi (R3), model diasumsikan memiliki kemampuan keamanan siber yang melampaui ahli manusia, sehingga memerlukan pemblokiran otomatis dan intervensi waktu nyata .
DeepMind telah membangun sebuah prototipe internal yang telah memindai lebih dari satu juta lintasan (trajectories) agen dan kini memantau agen pengkodean Gemini Spark secara langsung. Sebagian besar peringatan sejauh ini disebabkan oleh kesalahan interpretasi, bukan sabotase yang disengaja, tetapi sistem akan meningkatkan temuan yang mencurigakan kepada peninjau manusia .
Sebuah panduan pendamping setebal 35 halaman terpisah, berjudul The Three Layers of Agent Security (Tiga Lapisan Keamanan Agen), memberikan rekomendasi bagi para pembuat kebijakan tentang cara mengamankan agen individu, sistem multi-agen, dan ekosistem yang lebih luas. Panduan ini menyerukan kerja pra-standarisasi, pembangunan konsensus industri, serta penelitian dan pengembangan tentang manajemen identitas dan akses agen .
Peta jalan ini dirancang untuk menyatu dengan Frontier Safety Framework (FSF) DeepMind yang lebih luas, yang sudah mendefinisikan Critical Capability Levels (CCL) untuk kemampuan model berisiko tinggi. Control Roadmap menambahkan lapisan keamanan tingkat sistem di bawah FSF tingkat model, menciptakan arsitektur keselamatan yang lebih komprehensif .
Alasan yang dinyatakan DeepMind adalah pertahanan harus dibangun sebelum agen otonom yang benar-benar berbahaya ada. Framework ini secara eksplisit bersifat proaktif: framework ini mengasumsikan bahwa ketika agen menjadi semakin sulit untuk diawasi dan dikendalikan, keamanan tingkat sistem harus sudah ada untuk menangkap perilaku yang mungkin tidak dapat dicegah oleh pelatihan penyelarasan .
Comments
0 comments