Co gorsza, atak nie sprawia, że raport staje się nonsensowny lub niskiej jakości. Wstrzyknięty tekst wiarygodnie wtapia się w legalną treść, przez co subtelna promocja oszukańczego produktu jest trudna do wykrycia zarówno dla użytkowników, jak i automatycznych filtrów .
Sednem problemu jest tak zwane nakładanie się wyników wyszukiwania. Badacze zaobserwowali, że te same strony Reddita pojawiały się w wynikach dla nawet 48% powiązanych zapytań w ramach jednego klastra tematycznego. Oznacza to, że zatrucie jednego popularnego wątku na Reddicie może wpłynąć na odpowiedzi AI na niemal połowę zapytań użytkowników na ten temat – od „najlepszej pomocy drogowej”, przez „jak anulować subskrypcję”, po „najwyżej oceniane aplikacje randkowe”. Ta koncentracja zamienia pojedynczy punkt awarii w szerokie, podatne na atak spektrum możliwości .
Zespół badawczy przetestował trzy proste strategie obronne i odkrył, że każda z nich jest albo nieskuteczna, albo przynosi efekt odwrotny do zamierzonego .
Całkowite blokowanie domen UGC natychmiast powstrzymuje atak, usuwając skażone strony Reddita i Wikipedii z puli danych. Jednak ta obrona jest lekarstwem gorszym od choroby: platformy UGC dostarczają bogatych, szczegółowych i opartych na doświadczeniach informacji, które w pierwszej kolejności czynią agentów deep research wartościowymi. Ich usunięcie sprawia, że agenci nie są w stanie tworzyć dokładnych raportów, których oczekują użytkownicy .
Wykorzystanie własnego modelu językowego agenta do weryfikacji źródeł przed ich pobraniem czasami wyłapuje oczywiste zatrucia, ale jest zasadniczo zawodne. Dobrze spreparowany tekst, napisany w tym samym tonie co otaczające go legalne komentarze, z łatwością omija te kontrole. Podejście to zwiększa również znacząco opóźnienia i koszty przetwarzania, nie dając proporcjonalnego wzrostu bezpieczeństwa .
Stosowanie kontroli wiarygodności do końcowego wyniku może oznaczyć niektóre skrajne lub logicznie niespójne rekomendacje. Problem polega na tym, że ataki WARP są zaprojektowane tak, aby były subtelne. Zatruta treść jest krótka, odpowiednia do kontekstu i nie obniża ogólnej jakości raportu. Końcowy dokument przechodzi testy wiarygodności bez żadnych widocznych czerwonych flag, mimo że po cichu poleca produkt wybrany przez atakującego .
Wniosek z badania jest otrzeźwiający. Opisana podatność nie jest błędem w oprogramowaniu, który można załatać; jest fundamentalną konsekwencją sposobu, w jaki te systemy są zaprojektowane. Ich duże uzależnienie od małego zestawu wielokrotnie pobieranych stron UGC tworzy skoncentrowaną, podatną na ataki powierzchnię, której żadne istniejące zabezpieczenie nie jest w stanie uszczelnić, nie niszcząc przy tym podstawowej funkcjonalności agentów .
Comments
0 comments