Penyelidik Cornell Tech mendapati ejen penyelidikan AI amat terdedah kepada serangan mudah dipanggil WARP. Serangan ini berjaya kerana ejen AI mendapatkan semula halaman kandungan buatan pengguna yang sama sehingga 48% daripada pertanyaan berkaitan.

Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
Kali berikutnya anda bertanya kepada alat penyelidikan AI tentang aplikasi temu janji terbaik atau cara membatalkan langganan, jawapannya mungkin telah ditanam oleh penipu hanya dengan satu ayat ringkas yang diselitkan dalam komen Reddit. Satu pracetak baharu daripada Cornell Tech oleh Tingwei Zhang, Harold Triedman, dan Vitaly Shmatikov menunjukkan bahawa ejen penyelidikan AI amat mudah dimanipulasi melalui serangan yang digelar WARP, atau Web Agent Retrieval Poisoning .
Ejen penyelidikan mendalam seperti STORM, Co-STORM, dan OmniThink beroperasi dengan mengeluarkan banyak pertanyaan carian berkaitan dan mensintesis maklumat yang diperoleh menjadi satu laporan yang komprehensif. Para penyelidik Cornell menemui satu kelemahan kritikal: ejen ini amat bergantung kepada kandungan buatan pengguna (UGC). Antara 54% hingga 71% daripada semua URL yang diperoleh semasa sesi penyelidikan datang dari platform UGC, dengan Reddit dan Wikipedia menjadi sumber yang paling kerap dirujuk .
Kepekatan ini mewujudkan permukaan serangan yang boleh dieksploitasi. Penyerang hanya perlu menyiarkan komen yang direka pada bebenang Reddit sedia ada yang popular—atau secara senyap menyunting halaman Wikipedia—dengan tujuan mempromosikan entiti sasaran tertentu, seperti produk palsu atau perkhidmatan penipuan. Oleh kerana ejen-ejen ini secara berulang kali mendapatkan halaman UGC teratas yang sama merentas pelbagai pertanyaan berbeza mengenai sesuatu topik, satu halaman yang diracuni boleh menjangkiti keseluruhan konteks penyelidikan ejen tersebut .
Hasilnya amat mengejutkan dari segi kecekapannya. Kajian mendapati teks beracun sependek 13 patah perkataan sudah cukup untuk mencapai kadar sebutan 38% hingga 62% — bermaksud entiti sasaran penyerang disebut terus dalam output akhir ejen untuk julat pertanyaan tersebut. Kertas kerja itu mengesahkan keberkesanan ini bertahan merentasi pelbagai kelompok pertanyaan dan seni bina ejen berbeza, menunjukkan bahawa kerentanan itu bersifat struktur, bukan terhad kepada satu sistem sahaja .
Serangan ini tidak menyebabkan laporan keseluruhan kelihatan tidak munasabah atau berkualiti rendah. Teks yang disuntik sebati dengan munasabah bersama kandungan yang sah, menjadikan promosi halus produk penipuan sukar dikesan oleh pengguna mahupun penapis automatik .
Punca utama masalah ini ialah pertindihan dapatan semula. Para penyelidik mendapati halaman Reddit yang sama muncul dalam hasil carian untuk sebanyak 48% daripada pertanyaan berkaitan dalam satu kelompok topik. Ini bermakna, meracuni satu bebenang Reddit yang tinggi trafik boleh mempengaruhi hampir separuh daripada semua pertanyaan pengguna mengenai subjek itu, daripada "bantuan kereta rosak terbaik" kepada "cara membatalkan langganan" kepada "aplikasi temu janji rating teratas". Kepekatan ini mengubah satu titik kegagalan tunggal menjadi kerentanan spektrum luas .
Pasukan penyelidikan menguji tiga strategi pertahanan mudah dan mendapati setiap satunya sama ada tidak berkesan atau memusnahkan diri sendiri .
Menyekat domain UGC sepenuhnya menghentikan serangan serta-merta dengan membuang halaman Reddit dan Wikipedia yang tercemar dari kelompok dapatan. Namun, pertahanan ini adalah penawar yang lebih teruk daripada penyakit: platform UGC menyediakan maklumat kaya, terperinci, dan berpengalaman yang menjadikan ejen penyelidikan mendalam bernilai pada mulanya. Membuangnya menyebabkan ejen tidak mampu menghasilkan laporan menyeluruh yang diharapkan pengguna .
Menggunakan model bahasa ejen sendiri untuk menyaring sumber sebelum dapatan semula kadangkala menangkap peracunan yang ketara, tetapi secara asasnya tidak boleh dipercayai. Teks beracun yang direka dengan baik, ditulis dalam nada yang sama seperti komen sah di sekelilingnya, mudah mengelak daripada pemeriksaan ini. Pendekatan ini juga menambah latensi pemprosesan dan kos yang signifikan tanpa peningkatan keselamatan yang setimpal .
Menerapkan pemeriksaan kebolehpercayaan pada output akhir boleh membenderakan beberapa saranan ekstrem atau tidak konsisten dari segi logik. Masalahnya, serangan WARP direka untuk bersifat halus. Suntikan beracun itu pendek, bersesuaian konteks, dan tidak merendahkan kualiti keseluruhan laporan. Dokumen akhir lulus semakan kebolehpercayaan tanpa sebarang isyarat bahaya yang jelas, walaupun sekarang ia secara senyap mengesyorkan produk pilihan penyerang .
Kesimpulan kajian ini menyedarkan. Kerentanan ini bukanlah pepijat perisian yang boleh ditampung; ia adalah akibat asas bagaimana ejen-ejen ini direka untuk beroperasi. Kebergantungan tinggi mereka terhadap sebilangan kecil halaman UGC yang diperoleh berulang kali mewujudkan permukaan serangan yang terkonsentrasi dan boleh dieksploitasi, yang tidak dapat ditutup oleh mana-mana pertahanan sedia ada tanpa memusnahkan fungsi teras ejen tersebut .
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Penyelidik Cornell Tech mendapati ejen penyelidikan AI amat terdedah kepada serangan mudah dipanggil WARP.
Penyelidik Cornell Tech mendapati ejen penyelidikan AI amat terdedah kepada serangan mudah dipanggil WARP. Serangan ini berjaya kerana ejen AI mendapatkan semula halaman kandungan buatan pengguna yang sama sehingga 48% daripada pertanyaan berkaitan.
Loading comments...
Comments
0 comments