Sonuçlar, verimliliği açısından çarpıcı. Çalışma, 13 kelime gibi kısa bir zehirli metnin %38 ila %62 arasında bir "bahsedilme oranına" ulaşabildiğini ortaya koydu. Bu, saldırganın hedefindeki varlığın, o konudaki sorgularda ajanın nihai çıktısında doğrudan alıntılandığı anlamına geliyor. Makale, bu etkinliğin birden fazla sorgu kümesi ve farklı ajan mimarileri için geçerli olduğunu doğruluyor ve güvenlik açığının tek bir sisteme özgü değil, yapısal olduğunu gösteriyor .
Saldırı, genel raporun saçma veya düşük kaliteli görünmesine yol açmıyor. Enjekte edilen metin, meşru içerikle inandırıcı bir şekilde kaynaşıyor ve bu da dolandırıcı bir ürünün ustaca tanıtımını hem kullanıcıların hem de otomatik filtrelerin tespit etmesini zorlaştırıyor .
Sorunun özünde, "getirme örtüşmesi" yatıyor. Araştırmacılar, tek bir konu kümesi içindeki ilişkili sorguların %48'ine varan bir kısmı için arama sonuçlarında aynı Reddit sayfalarının göründüğünü gözlemledi. Bu, iyi trafik alan tek bir Reddit başlığını zehirlemenin, o konudaki tüm kullanıcı sorgularının neredeyse yarısını etkileyebileceği anlamına geliyor. "En iyi yol yardımı"ndan "en iyi arkadaşlık uygulamaları"na kadar birçok konuda bu yoğunlaşma, tek bir hata noktasını geniş çaplı bir güvenlik açığına dönüştürüyor .
Araştırma ekibi, üç basit savunma stratejisini test etti ve her birinin ya etkisiz ya da kendi kendine zarar veren bir yöntem olduğunu gördü .
UGC alan adlarını tamamen engellemek, zehirli Reddit ve Wikipedia sayfalarını getirme havuzundan çıkararak saldırıyı anında durdurur. Ancak bu savunma, hastalıktan daha beter bir tedavidir: UGC platformları, derin araştırma ajanlarını değerli kılan zengin, ayrıntılı ve deneyimsel bilgiyi sağlar. Bunları kaldırmak, ajanların kullanıcıların beklediği kapsamlı raporları üretemez hale gelmesine yol açar .
Ajanın kendi dil modelini kaynakları taramak için kullanmak bazen bariz zehirlemeleri yakalasa da temelde güvenilmezdir. Etrafındaki meşru yorumlarla aynı tonda yazılmış, iyi hazırlanmış bir zehirli metin bu kontrolleri kolayca atlatır. Ayrıca bu yaklaşım, güvenlikte orantılı bir kazanç sağlamadan önemli ölçüde işlem gecikmesi ve maliyet ekler .
Nihai çıktıya makuliyet kontrolleri uygulamak, bazı aşırı veya mantıksız tavsiyeleri işaretleyebilir. Sorun şu ki, WARP saldırıları fark edilmeyecek şekilde tasarlanmıştır. Zehirli enjeksiyon kısa, bağlama uygun ve raporun genel kalitesini düşürmez. Nihai belge, artık sessizce saldırganın seçtiği bir ürünü tavsiye etse de, bariz bir kırmızı bayrak olmadan makuliyet incelemelerini geçer .
Çalışmanın vardığı sonuç düşündürücü. Bu güvenlik açığı, bir yama ile düzeltilebilecek bir yazılım hatası değil; bu ajanların çalışmak üzere nasıl tasarlandığının temel bir sonucu. Az sayıda ve tekrar tekrar getirilen UGC sayfasına olan ağır bağımlılıkları, mevcut hiçbir savunmanın, ajanların temel işlevselliğini de bozmadan kapatamayacağı, yoğun ve istismar edilebilir bir saldırı yüzeyi yaratıyor .
Comments
0 comments