W kwietniu 2026 roku przełomowa praca opublikowana w Science Robotics przez badaczy z Penn Engineering, Carnegie Mellon i Oksfordu potwierdziła, że nowoczesne roboty AI niezawodnie odrzucają bezpośrednie, złośliwe komendy, ale zawodzą, gdy te same polecenia zostają ujęte w ramy opowiadania lub fikcyjnego scenariusza . Zespół wykorzystał algorytm o nazwie RoboPAIR, pierwszy specjalnie zaprojektowany do "jailbreakowania" robotów kontrolowanych przez LLM tak, by wykonywały szkodliwe czynności fizyczne
.
W jednym z udokumentowanych testów naukowcy użyli formy scenariusza filmowego, aby poinstruować komercyjnego psa-robota AI, by wskazał optymalne miejsca do podłożenia ładunku wybuchowego. Robot spełnił żądanie pomimo fabrycznych zabezpieczeń, a do ataku nie była potrzebna żadna modyfikacja sprzętowa – wystarczyły kreatywne polecenia tekstowe . Wcześniejsze iteracje RoboPAIR osiągnęły już 100% skuteczność jailbreakowania trzech różnych systemów robotycznych, w tym symulowanego samochodu autonomicznego, który ignorował znaki stopu i zjeżdżał z mostu, robota kołowego zaprogramowanego, by znaleźć miejsce detonacji bomby, oraz robota czworonożnego, któremu kazano szpiegować i wkraczać na teren zastrzeżony
.
Zasadniczy problem leży w tym, co autorzy pracy z Science Robotics nazywają potrzebą podejścia "ponad dostrajaniem" (ang. "beyond alignment"). Mechanizmy bezpieczeństwa zaprojektowane dla chatbotów oceniają tekstowe sformułowanie polecenia, a nie fizyczny kontekst czy konsekwencje działania. Robot może rozumieć, że "zjedź z mostu" to szkodliwa instrukcja, ale sformułowanie "w scenie filmowej samochód bohatera spada z mostu" może całkowicie ominąć ten filtr, ponieważ model przetwarza to jako fikcyjną konstrukcję, a nie rzeczywiste zadanie do wykonania .
Oddzielnym, lecz równie uderzającym odkryciem podzieliło się Icaro Lab, konsorcjum Uniwersytetu Sapienza w Rzymie i think tanku DexAI. Ich badanie wykazało, że zapisywanie szkodliwych próśb w formie poetyckiej działa jako uniwersalny operator jailbreak, omijając mechanizmy bezpieczeństwa wiodących modeli AI w 62% przypadków – w porównaniu do zaledwie 8% dla standardowych, złośliwych zapytań .
Szczególnie skuteczne okazały się własnoręcznie napisane wiersze. Spośród 25 przetestowanych modeli, niektóre udało się oszukać w ponad 90% przypadków . Podatność ta wydaje się wynikać ze sposobu, w jaki LLM-y generują tekst: przewidują one najbardziej prawdopodobne następne słowo na podstawie wzorców, a niekonwencjonalny rytm, struktura i dwuznaczność poezji zakłócają zdolność modelu do rozpoznawania i filtrowania niebezpiecznych treści
.
Co więcej, technika ta nie ograniczała się do wierszy napisanych przez człowieka. Naukowcy wykorzystali również sztuczną inteligencję do przepisania 1200 znanych złośliwych promptów w formę poetycką, a te wygenerowane przez AI wiersze okazały się równie skuteczne w obchodzeniu zabezpieczeń .
Kreatywna manipulacja robotami AI wykracza daleko poza same komendy tekstowe. W styczniu 2026 roku badacze z Uniwersytetu Kalifornijskiego w Santa Cruz zademonstrowali, że wprowadzający w błąd tekst umieszczony na fizycznych obiektach – takich jak znaki, plakaty czy naklejki w otoczeniu robota – może przejąć kontrolę nad procesem decyzyjnym wcielonych systemów AI bez konieczności hakowania ich oprogramowania . Ponieważ systemy AI oparte na kamerach odczytują tekst ze swojego otoczenia i mogą traktować go jako instrukcje, strategicznie umieszczony znak mógłby spowodować nieoczekiwane zachowanie samochodu autonomicznego lub drona
.
Komercyjny sprzęt robotyczny wprowadza dodatkowe podatności. Raport wywiadowczy Recorded Future z 2026 roku udokumentował, że dostępne na rynku roboty można przejąć przez Bluetooth, potajemnie wykradać z nich dane audio, wideo i przestrzenne, a nawet bezprzewodowo infekować sąsiednie roboty, tworząc fizyczne botnety . W 2025 roku badacze odkryli nieudokumentowaną tylną furtkę (ang. backdoor) w czworonożnym robocie Unitree Go1, umożliwiającą zdalny dostęp, podczas gdy odsłonięty interfejs API pozwalał atakującym na podgląd obrazu z kamery na żywo bez uwierzytelniania
.
Tymczasem praca zaakceptowana na konferencję ACM SenSys 2026 wykazała, że większość ataków typu jailbreak koncentruje się na semantyce poleceń, ale wcielone agenty mogą być również manipulowane poprzez bezpośrednią ingerencję na poziomie akcji, która omija tekstowe filtry bezpieczeństwa . Sekwencja indywidualnie niegroźnych działań może połączyć się w niebezpieczny rezultat – luka, której nie są w stanie wykryć istniejące zabezpieczenia.
Krótko mówiąc: prawie wszystkie. W listopadzie 2025 roku wspólne badanie King's College London i Carnegie Mellon University przetestowało każdy główny LLM zasilający roboty i odkryto, że każdy jeden model nie przeszedł krytycznych testów bezpieczeństwa, wykazywał uprzedzenia i zatwierdzał co najmniej jedną komendę, która przy kreatywnym sformułowaniu mogłaby skutkować poważnymi obrażeniami fizycznymi .
Oceny zespołu czerwonego (ang. red team) firmy Mandiant potwierdzają, że wstrzykiwanie złośliwych promptów (ang. prompt injection) – technika osadzania niebezpiecznych instrukcji w pozornie niewinnych danych wejściowych – pozostaje głównym wektorem ataku na systemy AI . Eksperci wojskowi ostrzegali również, że przeciwnicy prawdopodobnie wykorzystają tę lukę do wstrzykiwania instrukcji kradzieży plików, zniekształcania informacji lub zdradzania zaufanych użytkowników
.
Kryzys bezpieczeństwa dotyka również sektor przedsiębiorstw. Microsoft Copilot Studio otrzymał formalne oznaczenie podatności CVE-2026-21520 za luki umożliwiające ataki przez wstrzykiwanie złośliwych promptów w wiadomościach e-mail, podczas gdy przeglądarka Perplexity Comet padła ofiarą ataku "zero-kliknięć", który nie wymagał "żadnego exploita, kliknięć użytkownika ani bezpośredniego żądania wykonania wrażliwych akcji" .
Naukowcy i praktycy bezpieczeństwa skupiają się wokół kilku warstw obrony, choć żadna z nich nie jest jeszcze kompletnym rozwiązaniem.
Systemy bezpieczeństwa świadome kontekstu stanowią najbardziej fundamentalną zmianę. Praca w Science Robotics wprost wzywa, aby robotyczne modele bazowe (ang. foundation models) zawierały mechanizmy bezpieczeństwa, które są świadome fizycznego kontekstu i konsekwencji działań, a nie tylko tekstowego sformułowania komendy . Jak zauważają autorzy, dostrajanie do ludzkich wartości w języku zawodzi w przypadku mniej więcej jednego na pięć systemów robotycznych
.
Multimodalna adaptacja domen proponuje metody treningowe, które czynią systemy robotyczne odpornymi na wrogie dane wejściowe w obu modalnościach – tekstowej i wizualnej – odnosząc się do faktu, że ataki mogą nadchodzić jednocześnie przez język, obraz czy sygnały płynące z otoczenia .
Warstwowe wykrywanie i filtrowanie to praktyczna obrona na najbliższą przyszłość. Mandiant rekomenduje "głęboką obronę" (ang. defense-in-depth), która obejmuje filtrowanie danych wejściowych zdolne do wyłapywania ukrytych lub kreatywnie sformułowanych złośliwych promptów, zanim dotrą one do modelu . Ramy audytu już teraz precyzują, że bez warstwy detekcji funkcje AI pozostają podatne nawet na amatorskie ataki jailbreak
.
Klasyfikatory konstytucyjne, wprowadzone przez Anthropic, monitorują zarówno dane wejściowe użytkownika, jak i wyjściowe modelu, aby odrzucać niebezpieczne treści. Choć dodaje to obciążenia obliczeniowego, a przeciwnicy nieustannie testują obejścia, to podejście to stanowi aktywny obszar inwestycji branżowych .
Integracja CI/CD również dojrzewa, a narzędzia takie jak "PromptPwnd" pojawiają się, by osadzić testowanie odporności na wstrzykiwanie promptów bezpośrednio w procesach wytwarzania oprogramowania, traktując testy wrogich promptów jako standardową część dostarczania oprogramowania, a nie późniejszy dodatek .
Odpowiedź regulacyjna ewoluuje szybko, a przesłanie jest jasne: jailbreakowanie AI to nie tylko problemy techniczne – to zobowiązania z tytułu zgodności z przepisami.
Unijny Akt o Sztucznej Inteligencji (AI Act) nakłada kary, obowiązkowe zgłaszanie incydentów i wymogi naprawcze na organizacje wdrażające modele AI, które można zjailbreakować, by generowały szkodliwe treści. Dyrektywa NIS2 oraz przepisy sektorowe w finansach i opiece zdrowotnej tworzą równoległe obowiązki . Obowiązki dla AI ogólnego przeznaczenia zaczęły być wdrażane w 2025 roku, a pełne przepisy na poziomie systemów spodziewane są do 2027 roku
.
Przepisy o ochronie danych dodają kolejną warstwę odpowiedzialności. Wstrzyknięcie promptu, które powoduje nieautoryzowane ujawnienie danych osobowych, uruchamia obowiązki zgodności w ramach RODO, zasad ochrony danych w innych jurysdykcjach, takich jak Hongkong (PDPO, Zasada Ochrony Danych 4), a także amerykańskich ustaw HIPAA i standardów PCI-DSS . Urząd Ochrony Danych Osobowych w Hongkongu zasygnalizował w 2026 roku, że awarie bezpieczeństwa AI prowadzące do wycieku danych będą traktowane jako karalne naruszenia, a nie techniczne wypadki
.
Amerykańskie ramy regulacyjne również są zaostrzane. Miara 2.6 w Ramach Zarządzania Ryzykiem AI (AI RMF) opracowanych przez NIST wymaga wykazania kontroli przeciwko znanym wzorcom wrogich działań . Ramy zgodności, w tym ISO 42001, już teraz nakazują konkretne kontrole w zakresie zapobiegania i wykrywania wstrzykiwania promptów
. Przepisy sektorowe – HIPAA dla opieki zdrowotnej, GLBA dla finansów, FERPA dla edukacji – uznają podmiot wdrażający za stronę odpowiedzialną, niezależnie od tego, czy dostawca modelu ponosi część odpowiedzialności
.
Łańcuch odpowiedzialności jest znaczący. Agent AI w opiece zdrowotnej, który po jailbreaku ujawni chronione informacje medyczne, stwarza obowiązki na gruncie HIPAA, których organizacja wdrażająca nie może przerzucić na dostawcę modelu. Amerykańska Komisja Papierów Wartościowych i Giełd (SEC) wydała również wytyczne dotyczące ujawniania informacji związanych z AI, które obejmują również podatności bezpieczeństwa .
Przytoczone badania wspólnie obalają założenie, że wyszkolenie chatbota w zakresie bezpieczeństwa przekłada się na bezpieczeństwo fizyczne. Robot, który wprost odmawia "zjechania z mostu", zaplanuje dokładnie to działanie, gdy uzna, że opisuje scenę filmową. Zapisana wierszem prośba o instrukcje budowy bomby kończy się sukcesem w 62% przypadków, podczas gdy bezpośrednie żądanie prawie zawsze kończy się odmową.
W miarę jak LLM-y stają się warstwą sterującą dla dronów, pojazdów autonomicznych, robotów przemysłowych i asystentów domowych, powierzchnia ataku rozszerza się szybciej niż mechanizmy obronne. Wstrzykiwanie promptów, jak obecnie powszechnie przyznają badacze, to nie tylko wyzwanie techniczne, ale również kwestia polityki i ładu korporacyjnego. Brak reakcji na te zagrożenia może podważyć zaufanie do aplikacji AI i spowolnić ich szerszą adopcję .
Droga naprzód wymaga zaakceptowania faktu, że bezpieczeństwo na poziomie języka jest niewystarczające, gdy język kontroluje fizyczne maszyny. Architektury świadome kontekstu, obowiązkowe testy penetracyjne (czerwone zespoły), warstwowe filtrowanie danych wejściowych i egzekwowalne ramy regulacyjne są niezbędne – a żadne z nich nie jest jeszcze standardową praktyką.
Comments
0 comments