Kesenjangan antara keamanan uji satu langkah dan multi-langkah sangatlah drastis. Di antara model-model sumber tertutup (proprietary), ASR multi-langkah berkisar antara 7,89% hingga 88,30%, sementara ASR satu langkah untuk model yang sama hanya 2,19% hingga 64,91% . Delapan dari 15 model menunjukkan selisih absolut lebih dari 15 poin persentase, membuktikan bahwa model yang dianggap "aman" oleh metrik satu langkah seringkali gagal di bawah tekanan berkelanjutan
.
Dalam studi pendahulu untuk model open-weight, kesenjangannya jauh lebih buruk. ASR multi-langkah mencapai 92,78% terhadap Mistral Large-2, dengan tingkat keberhasilan di seluruh delapan model yang diuji mencapai 2× hingga 10× lebih tinggi daripada tolok ukur satu langkah mereka .
Cisco menguji setiap model dalam mode penalaran (reasoning) dan non-penalaran yang berlaku. Berikut adalah hasil kinerja penyedia utama di bawah serangan iteratif:
xAI – Grok 4.1 Fast (non-reasoning) adalah yang paling rentan, memuncaki kelompok dengan ASR multi-langkah 88,30%. Ketika mode penalaran diaktifkan, angkanya turun menjadi 43,47%—sebuah perubahan keamanan yang dramatis akibat konfigurasi, meski masih berada di level gagal. Tidak ada tolok ukur publik yang menangkap perilaku ini .
Google – Gemini 3 Pro melonjak ASR-nya dari 18,10% dalam uji satu langkah menjadi 73,35% di bawah tekanan multi-langkah, peningkatan sekitar 4× lipat dan salah satu kesenjangan absolut terlebar dalam studi ini .
OpenAI – GPT-5.4 melonjak sekitar 9× lipat, dari ASR satu langkah terbaik di kelasnya 2,74% menjadi 24,68% di bawah serangan iteratif. Meski angka absolut multi-langkahnya sedang, pergeseran hampir sepuluh kali lipat ini meruntuhkan anggapan bahwa skor satu langkah yang rendah menunjukkan keamanan yang kuat .
Anthropic – Keluarga Claude (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5) mencatatkan tingkat penolakan satu langkah terkuat, berkisar 2,19% hingga 3,64%, tetapi tetap mencapai ASR multi-langkah 11,16% hingga 16,20%. Penyelarasan (alignment) dari Anthropic tampaknya menaikkan standar minimal, tetapi tidak menghilangkan kerentanan iteratif .
Amazon – Nova 2 Lite mencatat ASR multi-langkah terendah di 7,89%, menjadikannya model paling tangguh dalam kelompok. Meski begitu, Cisco menyebut ini sebagai "risiko residual yang signifikan" dan memperingatkan agar skor ini tidak diartikan sebagai "aman" .
Cisco tidak hanya mengandalkan satu metode serangan. Para peneliti mengklasifikasikan strategi lawan ke dalam lima rumpun berbeda dan menguji setiap model terhadap masing-masingnya, mengungkapkan bahwa model yang berbeda gagal dengan cara yang berbeda :
Variasi performa model di antara rumpun serangan ini sangat signifikan. Sebuah model yang kebal terhadap satu jenis serangan bisa runtuh terhadap jenis lainnya, menegaskan perlunya evaluasi per strategi, bukan hanya satu skor keamanan agregat .
Riset Cisco bukan hanya katalog kegagalan—tetapi juga berfungsi sebagai panduan penerapan bagi organisasi yang peduli keamanan. Berikut adalah tindakan utama yang direkomendasikan oleh tim :
Hentikan ketergantungan pada ASR satu langkah. Tolok ukur satu langkah salah dalam memberi peringkat model dan mengaburkan risiko ekstrem. Evaluasi apa pun yang tidak menyertakan serangan adaptif multi-langkah melukiskan gambaran yang tidak lengkap tentang kerentanan di dunia nyata.
Jadikan evaluasi multi-langkah sebagai keharusan. Sebelum pengadaan atau penerapan, pembeli dan regulator harus bertanya: "Bagaimana model ini bertahan terhadap serangan iteratif dan adaptif?" Jika vendor tidak dapat menjawab, model tersebut belum siap untuk produksi berisiko tinggi.
Sesuaikan pertahanan Anda dengan model ancaman. Serangan multi-langkah mengeksploitasi riwayat percakapan dan erosi batasan secara bertahap. Pertahanan harus beroperasi di level sesi—memantau pola percakapan anomali, lintasan eskalasi, dan manipulasi konteks kumulatif—bukan hanya filter kata kunci per perintah.
Lakukan red-teaming secara berkelanjutan dengan skenario multi-langkah. Tes penetrasi satu kali menggunakan jailbreak satu langkah tidak cukup. Organisasi memerlukan red-teaming reguler yang menyimulasikan serangan iteratif dan rekayasa sosial yang digunakan musuh sungguhan.
Lapisi pertahanan Anda. Tidak ada pagar pembatas atau teknik penyelarasan tunggal yang bisa menghentikan kelima rumpun serangan. Cisco merekomendasikan kombinasi penyelarasan level-model dengan filter input/output, deteksi anomali perilaku, pembatasan laju (rate limiting) level-sesi, dan tinjauan manusia untuk aplikasi berisiko tinggi.
Pertimbangkan filosofi penyelarasan lab. Cisco mengamati sebuah pola: model dari lab dengan penekanan publik yang kuat pada keamanan (seperti keluarga Gemma dari Google) cenderung menunjukkan kesenjangan satu-ke-multi-langkah yang lebih sempit, sementara lab yang mengutamakan kapabilitas (Llama dari Meta, Grok dari xAI) menunjukkan kesenjangan yang lebih lebar. Organisasi harus memfaktorkan sinyal kultural ini ke dalam evaluasi vendor .
Gunakan alat evaluasi yang terstruktur dan dapat direproduksi. Platform Cisco AI Validation—yang kini menjadi bagian dari Papan Peringkat Keamanan LLM publik—memungkinkan organisasi menghasilkan skor risiko multi-langkah yang sebanding dan memetakan ancaman ke taksonomi Kerangka Keamanan dan Keselamatan AI Cisco. Menggunakan alat ukur yang konsisten sebelum penerapan mencegah "permainan tolok ukur (benchmark shopping)" oleh vendor .
Comments
0 comments