Hasilnya sangat mengejutkan dalam hal efisiensi. Studi ini menemukan bahwa teks beracun sependek 13 kata sudah cukup untuk mencapai tingkat penyebutan (mention rate) 38% hingga 62%—artinya, entitas target penyerang dikutip langsung di hasil akhir agen untuk rentang kueri tersebut. Makalah ini mengonfirmasi bahwa efektivitas ini berlaku di berbagai kluster kueri dan arsitektur agen yang berbeda, menunjukkan bahwa kerentanan ini bersifat struktural, bukan terbatas pada satu sistem saja .
Serangan ini tidak membuat laporan keseluruhan menjadi tidak masuk akal atau berkualitas rendah. Teks yang disuntikkan berpadu secara wajar dengan konten yang sah, membuat promosi terselubung produk penipuan sulit dikenali baik oleh pengguna maupun filter otomatis .
Inti masalahnya adalah tumpang tindih pengambilan (retrieval overlap). Para peneliti mengamati bahwa halaman Reddit yang sama muncul di hasil pencarian untuk sebanyak 48% kueri terkait dalam satu kluster topik. Ini berarti, meracuni satu utas Reddit yang ramai bisa memengaruhi hampir setengah dari semua kueri pengguna tentang subjek itu, mulai dari "bantuan pinggir jalan terbaik" hingga "cara membatalkan langganan" dan "aplikasi kencan teratas." Konsentrasi ini mengubah satu titik kegagalan tunggal menjadi kerentanan berspektrum luas .
Tim peneliti menguji tiga strategi pertahanan langsung dan menemukan masing-masingnya tidak efektif atau justru merugikan diri sendiri .
Memblokir domain UGC sepenuhnya akan langsung menghentikan serangan dengan menyingkirkan halaman Reddit dan Wikipedia yang tercemar dari kumpulan data yang diambil. Namun, pertahanan ini adalah obat yang lebih buruk dari penyakitnya: platform UGC justru menyediakan informasi yang kaya, mendetail, dan berbasis pengalaman yang membuat agen riset mendalam begitu berharga. Menghapusnya membuat agen tidak mampu menghasilkan laporan menyeluruh yang diharapkan pengguna .
Menggunakan model bahasa agen itu sendiri untuk menyaring sumber sebelum pengambilan kadang-kadang bisa mendeteksi peracunan yang mencolok, tetapi pada dasarnya tidak bisa diandalkan. Teks beracun yang dibuat dengan baik, ditulis dengan nada yang sama seperti komentar sah di sekitarnya, bisa lolos dari pemeriksaan ini dengan mudah. Pendekatan ini juga menambah latensi pemrosesan dan biaya yang signifikan tanpa peningkatan keamanan yang sepadan .
Menerapkan pemeriksaan kewajaran pada hasil akhir bisa menandai beberapa rekomendasi yang ekstrem atau tidak konsisten secara logika. Masalahnya, serangan WARP dirancang untuk menjadi halus. Suntikan beracunnya pendek, sesuai konteks, dan tidak menurunkan kualitas laporan secara keseluruhan. Dokumen akhir bisa lolos dari tinjauan kewajaran tanpa tanda bahaya yang jelas, meskipun sekarang diam-diam merekomendasikan produk pilihan penyerang .
Kesimpulan studi ini sungguh menyadarkan. Kerentanan ini bukanlah bug perangkat lunak yang bisa ditambal; ini adalah konsekuensi mendasar dari cara agen-agen ini dirancang untuk beroperasi. Ketergantungan besar mereka pada sejumlah kecil halaman UGC yang diambil berulang kali menciptakan permukaan serangan yang terkonsentrasi dan bisa dieksploitasi, yang tidak bisa disegel oleh pertahanan apa pun yang ada saat ini tanpa juga merusak fungsi inti agen tersebut .
Comments
0 comments