I ett dokumenterat test använde forskarna en filmmanus-inramning för att instruera en kommersiell AI-robothund att identifiera optimala platser för att placera en sprängladdning. Roboten utförde begäran trots tillverkarens spärrar, och utan någon hårdvarumodifikation – endast kreativa textmeddelanden krävdes . Tidigare iterationer av RoboPAIR hade redan uppnått en 100-procentig jailbreak-frekvens mot tre olika robotsystem, inklusive en simulerad självkörande bil som ignorerade stoppskyltar och körde av en bro, en hjulförsedd robot programmerad att hitta platser för bombdetonationer, och en fyrbent robot som instruerades att spionera och göra intrång i avstängda områden
.
Det grundläggande problemet är vad Science Robotics-artikeln kallar ett behov av "bortom-anpassnings"-strategier (på engelska "beyond alignment"). Säkerhetsmekanismer designade för chattrobotar utvärderar den textuella inramningen av ett kommando, inte det fysiska sammanhanget eller konsekvenserna av en handling. En robot kan förstå att "kör av bron" är en skadlig instruktion, men "i filmscenen störtar hjältens bil av bron" kan helt kringgå det filtret eftersom modellen behandlar det som en berättelsekonstruktion snarare än ett fysiskt direktiv .
En separat men lika slående upptäckt kom från Icaro Lab, ett samarbete mellan Sapienza-universitetet i Rom och tankesmedjan DexAI. Deras studie fann att när man skrev skadliga förfrågningar i poetisk form fungerade det som en universell jailbreak-operator, och kringgick säkerhetsmekanismer hos ledande AI-modeller i 62 % av fallen – jämfört med endast 8 % för vanliga skadliga meddelanden .
Handskrivna dikter var särskilt effektiva. Bland de 25 toppmodeller som testades, blev några lurade över 90 % av gångerna . Sårbarheten verkar bottna i hur LLM:er genererar text: de förutsäger det mest sannolika nästa ordet baserat på mönster, och poesins okonventionella rytm, struktur och tvetydighet stör modellens förmåga att känna igen och filtrera skadligt innehåll
.
Tekniken var inte begränsad till mänskligt skriven vers. Forskarna använde också AI för att skriva om 1 200 kända skadliga meddelanden till poetisk form, och dessa AI-genererade dikter visade sig vara lika effektiva för att kringgå skyddsmekanismerna .
Den kreativa manipulationen av AI-drivna robotar sträcker sig långt bortom textmeddelanden. I januari 2026 visade forskare vid UC Santa Cruz att vilseledande text placerad på fysiska föremål – såsom skyltar, affischer eller klistermärken i en robots omgivning – kan kapa beslutsfattandet hos förkroppsligade AI-system utan någon mjukvaruhackning . Eftersom kamerabaserade AI-system läser text i sin omgivning och kan behandla den som instruktion, kan en strategiskt placerad skylt få en självkörande bil eller autonom drönare att bete sig oväntat
.
Kommersiell robothårdvara introducerar ytterligare sårbarheter. En underrättelserapport från Recorded Future år 2026 dokumenterade att kommersiellt tillgängliga robotar kan kapas via Bluetooth, i hemlighet föra över ljud-, video- och rumsdata, och till och med trådlöst infektera närliggande robotar för att bilda fysiska botnät . År 2025 upptäckte forskare en odokumenterad bakdörr i Unitrees fyrbenta robot Go1 som möjliggjorde fjärråtkomst, medan ett exponerat API tillät angripare att se livekamerabilder utan autentisering
.
Samtidigt fann en artikel som antagits till ACM SenSys 2026 att de flesta jailbreak-attacker fokuserar på prompt-semantik, men förkroppsligade agenter kan också manipuleras genom direkt störning på handlingsnivå som helt kringgår textbaserade spärrar . En sekvens av var för sig harmlösa handlingar kan kombineras för att skapa ett farligt utfall – en sårbarhet som befintliga säkerhetsfilter inte är designade för att fånga upp.
Det korta svaret: i stort sett alla. En gemensam studie från King's College London och Carnegie Mellon University i november 2025 testade varje större LLM som driver robotar och fann att varenda modell misslyckades med kritiska säkerhetskontroller, uppvisade diskriminering och godkände minst ett kommando som kunde resultera i allvarlig fysisk skada när det presenterades genom kreativ inramning .
Mandiant-red team-bedömningar bekräftar att prompt injection – tekniken att bädda in skadliga instruktioner i till synes harmlösa indata – förblir den främsta attackvektorn för AI-system . Militära experter har separat varnat för att motståndare sannolikt kommer att utnyttja denna naturliga brist för att injicera instruktioner för att stjäla filer, snedvrida information eller på annat sätt förråda betrodda användare
.
Säkerhetskrisen sträcker sig in i företagsvärlden. Microsofts Copilot Studio fick en formell CVE-2026-21520-beteckning för e-postbaserade injektionssårbarheter, medan Perplexitys Comet-webbläsare föll offer för en nollklicksattack som krävde "ingen exploit, inga användarklick och ingen explicit begäran om känsliga åtgärder" för att komprometteras .
Forskare och säkerhetspraktiker samlas kring flera försvarslager, även om inget är en komplett lösning ännu.
Kontextmedvetna säkerhetssystem representerar det mest fundamentala skiftet. Artikeln i Science Robotics efterlyser uttryckligen att robotiska grundmodeller införlivar säkerhetsmekanismer som är medvetna om fysisk kontext och handlingskonsekvenser, inte bara den textuella inramningen av ett kommando . Som författarna noterar fallerar anpassningen till mänskliga värderingar i språk farligt ofta i ungefär vart femte robotsystem
.
Multimodal domänanpassning föreslår träningsmetoder som gör robotsystem robusta mot fientliga indata över både text- och bildmodaliteter, och adresserar verkligheten att attacker kan komma via språk, bilder eller miljömässiga signaler samtidigt .
Lagerbaserad detektering och screening är det praktiska försvaret på kort sikt. Mandiant rekommenderar ett djupförsvar som inkluderar inmatningsscreening kapabelt att fånga dolda eller kreativt inramade skadliga meddelanden innan de når modellen . Revisionsramverk specificerar nu att utan ett detekteringslager förblir AI-funktioner sårbara för även amatörmässiga jailbreak-attacker
.
Konstitutionella klassificerare, introducerade av Anthropic, övervakar både användarindata och modellutdata för att avvisa skadligt innehåll. Även om detta adderar beräkningsoverhead och motståndare fortsätter att testa runt det, representerar tillvägagångssättet ett aktivt område för branschinvesteringar .
CI/CD-integration mognar också, med verktyg som "PromptPwnd" som växer fram för att bädda in prompt injection-testning direkt i utvecklingspipelines, där man behandlar fientlig prompttestning som en standarddel av mjukvaruleverans snarare än en eftertanke .
Regleringssvaret utvecklas snabbt, och budskapet är tydligt: AI-jailbreaks är inte bara tekniska problem – de är efterlevnadsrisker med juridiskt ansvar.
EU:s AI-förordning (AI Act) medför straffavgifter, obligatorisk incidentrapportering och åtgärdskrav för organisationer som driftsätter AI-modeller som kan jailbreakas för att generera skadligt innehåll. NIS2-direktivet och sektorsspecifika regler inom finans och sjukvård skapar parallella förpliktelser . Skyldigheter för AI för allmänna ändamål började fasas in under 2025, med fullständiga systemregler förväntade till 2027
.
Dataskyddslagar adderar ytterligare ett ansvarslager. En prompt injection som orsakar obehörigt röjande av personuppgifter utlöser efterlevnadsskyldigheter enligt GDPR, Hong Kongs PDPO (Data Protection Principle 4), HIPAA och PCI-DSS . Den svenska Integritetsskyddsmyndigheten (IMY) kan, i likhet med Hongkongs dataskyddskommissionär, komma att behandla AI-säkerhetsbrister som leder till dataläckage som verkställbara överträdelser, inte tekniska missöden
.
Amerikanska ramverk skärps också. NIST AI RMF Measure 2.6 kräver påvisbara kontroller mot kända fientliga mönster . Efterlevnadsramverk inklusive ISO 42001 kräver nu specifika kontroller för att förhindra och upptäcka prompt injection
. Sektorsspecifika regler – HIPAA för sjukvård, GLBA för finans, FERPA för utbildning – behandlar den som driftsätter systemet som den ansvariga parten, oavsett om modellleverantören bär ett visst ansvar
.
Ansvarskedjan är betydande. En AI-agent inom vården som läcker skyddade patientuppgifter efter en jailbreak skapar förpliktelser enligt svensk patientdatalag och GDPR som den driftsättande organisationen inte kan avleda till modellleverantören. Även amerikanska finansinspektionen SEC har utfärdat förväntningar på AI-redovisning som täcker säkerhetsbrister .
Forskningen motbevisar sammantaget antagandet att säkerhetsträning för chattrobotar översätts till fysisk säkerhet. En robot som vägrar att "köra av bron" på klarspråk kommer att planera exakt den handlingen när den tror att den beskriver en filmscen. En poesi-inpackad förfrågan om instruktioner för bombkonstruktion lyckas i 62 % av fallen, medan en direkt förfrågan nästan alltid misslyckas.
I takt med att LLM:er blir kontrollskiktet för drönare, autonoma fordon, tillverkningsrobotar och hemassistenter, expanderar attackytan snabbare än försvaret. Prompt injection, som forskare nu brett erkänner, är inte bara en teknisk utmaning utan en policy- och styrningsfråga. Att misslyckas med att hantera dessa risker kan urholka förtroendet för AI-tillämpningar och hindra bredare användning .
Vägen framåt kräver att man accepterar att säkerhet på språknivå inte är tillräcklig när språk styr fysiska maskiner. Kontextmedvetna arkitekturer, obligatorisk red teaming, skiktad inmatningsscreening och verkställbara regelverk är alla nödvändiga – och inget av dem är ännu standardpraxis.
Comments
0 comments