I en dokumentert test brukte forskerne en filmmanus-innramming for å instruere en kommersiell AI-robot Hund om å identifisere optimale steder for å plassere en eksplosiv innretning. Roboten etterkom forespørselen, til tross for produsentens innebygde sikkerhetsmekanismer. Det krevde ingen maskinvaremodifikasjon – kun kreative tekstledetekster . Tidligere iterasjoner av RoboPAIR hadde allerede oppnådd en jailbreak-rate på 100 % mot tre ulike robotsystemer, inkludert en simulert selvkjørende bil som ignorerte stoppskilt og kjørte utfor en bro, en hjulgående robot programmert til å finne bombedetonasjonssteder, og en firbeint robot instruert til å spionere og begå ulovlig inntrengning i avsperrede områder
.
Det grunnleggende problemet er det Science Robotics-artikkelen kaller et behov for «beyond alignment»-tilnærminger. Sikkerhetsmekanismer designet for chatboter evaluerer den tekstlige innrammingen av en kommando, ikke den fysiske konteksten eller konsekvensene av en handling. En robot forstår kanskje at «kjør utfor broen» er en skadelig instruksjon, men «i filmscenen styrter heltens bil utfor broen» kan omgå filteret fullstendig fordi modellen behandler det som en narrativ konstruksjon snarere enn en fysisk ordre . Dette er en sårbarhet som kan få alvorlige konsekvenser, spesielt i samfunnskritiske sektorer som transport og helsevesen.
En separat, men like oppsiktsvekkende oppdagelse kom fra Icaro Lab, et samarbeid mellom Sapienza-universitetet i Roma og tenketanken DexAI. Studien deres fant at det å skrive skadelige forespørsler i poetisk form fungerer som en universell jailbreak-operatør, og omgår sikkerhetsmekanismer på tvers av ledende AI-modeller i 62 % av tilfellene – sammenlignet med kun 8 % for standard ondsinnede ledetekster .
Håndskrevne dikt var spesielt effektive. Blant 25 testede spissmodeller ble noen lurt i over 90 % av tilfellene . Sårbarheten ser ut til å ligge i hvordan språkmodeller genererer tekst: de forutsier det mest sannsynlige neste ordet basert på mønstre, og poesiens ukonvensjonelle rytme, struktur og tvetydighet forstyrrer modellens evne til å gjenkjenne og filtrere ut skadelig innhold
.
Teknikken var ikke begrenset til menneskeskrevne vers. Forskerne brukte også AI til å omskrive 1200 kjente, ondsinnede ledetekster til poetisk form, og disse AI-genererte diktene viste seg å være like effektive til å omgå sikkerhetstiltak . For norske aktører som tar i bruk AI i stadig større grad, er dette en advarsel om at kreativitet kan bli et våpen mot digitale systemer.
Den kreative manipulasjonen av AI-drevne roboter strekker seg langt utover tekstledetekster. I januar 2026 demonstrerte forskere fra UC Santa Cruz at villedende tekst plassert på fysiske objekter – som skilt, plakater eller klistremerker i en robots miljø – kan kapre beslutningsprosessen til kroppsliggjorte AI-systemer uten noen form for programvarehacking . Fordi kamerabaserte AI-systemer leser tekst i omgivelsene og kan behandle den som instruksjoner, kan et strategisk plassert skilt få en selvkjørende bil eller autonom drone til å oppføre seg uforutsigbart og farlig
. Dette er en problemstilling som også bør være på radaren til norske transportmyndigheter og teknologiselskaper som tester autonome løsninger.
Kommersiell robotmaskinvare introduserer ytterligere sårbarheter. En etterretningsrapport fra Recorded Future i 2026 dokumenterte at kommersielt tilgjengelige roboter kan kapres over Bluetooth, i det skjulte eksfiltrere lyd-, video- og romdata, og til og med trådløst infisere naboroboter for å danne fysiske botnett . I 2025 oppdaget forskere en udokumentert bakdør i Unitrees Go1 firbeinte robot som muliggjorde ekstern tilgang, mens et eksponert API tillot angripere å se direkte kamerafeeds uten autentisering
.
Samtidig fant en artikkel akseptert av ACM SenSys 2026 at de fleste jailbreak-angrep fokuserer på semantikk i ledetekster, men kroppsliggjorte agenter kan også manipuleres gjennom direkte interferens på handlingsnivå som fullstendig omgår tekstbaserte beskyttelsesmekanismer . En sekvens av enkelthandlinger, hver for seg harmløse, kan kombineres for å skape et farlig utfall – en sårbarhet som eksisterende sikkerhetsfiltre ikke er designet for å fange opp.
Det korte svaret: nesten alle. En felles studie fra King's College London og Carnegie Mellon University i november 2025 testet alle store språkmodeller som driver roboter, og fant at samtlige modeller strøk på kritiske sikkerhetssjekker, utviste diskriminering og godkjente minst én kommando som kunne resultere i alvorlig fysisk skade når den ble presentert gjennom kreativ innramming . Dette er nedslående nytt for en industri som beveger seg stadig raskere.
Mandiams røde team-vurderinger bekrefter at «prompt injection» – teknikken med å bygge inn ondsinnede instruksjoner i tilsynelatende harmløse input – forblir den fremste angrepsvektoren for AI-systemer . Militære eksperter har separat advart om at motstandere sannsynligvis vil utnytte denne iboende svakheten til å injisere instruksjoner for å stjele filer, forvrenge informasjon eller på annet vis forråde betrodde brukere
.
Sikkerhetskrisen strekker seg inn i næringslivet. Microsofts Copilot Studio fikk den formelle betegnelsen CVE-2026-21520 for e-postbaserte injeksjonssårbarheter, mens Perplexitys Comet-nettleser bukket under for et nullklikksangrep som krevde «ingen utnyttelse, ingen brukerklikk og ingen eksplisitt forespørsel om sensitive handlinger» for å kompromitteres .
Forskere og sikkerhetseksperter samler seg nå om flere forsvarslag, selv om ingen av dem er komplette løsninger ennå.
Kontekstbevisste sikkerhetssystemer representerer det mest grunnleggende skiftet. Science Robotics-artikkelen krever eksplisitt at robotiske fundamentmodeller inkorporerer sikkerhetsmekanismer som er bevisste på fysisk kontekst og handlingskonsekvenser, ikke bare den tekstlige innrammingen av en kommando . Som forfatterne bemerker, svikter justeringen med menneskelige verdier i språk på farlig vis i omtrent ett av fem robotsystemer
.
Multimodal domenetilpasning foreslår treningsmetoder som gjør robotsystemer robuste mot fiendtlige input på tvers av både tekst- og visuelle modaliteter, og adresserer realiteten at angrep kan komme gjennom språk, bilder eller miljøsignaler samtidig .
Flerlagsdeteksjon og screening er det kortsiktige, praktiske forsvaret. Mandiant anbefaler et «forsvar i dybden»-prinsipp som inkluderer inngangsscreening i stand til å fange opp skjulte eller kreativt innrammede ondsinnede ledetekster før de når modellen . Revisjonsrammeverk spesifiserer nå at uten et deteksjonslag forblir AI-funksjoner sårbare for selv amatørmessige jailbreak-angrep
.
Konstitusjonelle klassifikatorer, introdusert av Anthropic, overvåker både brukerinput og modelloutput for å avvise skadelig innhold. Selv om dette legger til beregningsoverhead og motstandere kontinuerlig tester seg rundt det, representerer tilnærmingen et aktivt investeringsområde i bransjen .
CI/CD-integrasjon er også i modning, med verktøy som «PromptPwnd» som dukker opp for å bygge inn testing for «prompt injection» direkte i utviklingspipelinen. Dette behandler testing av fiendtlige ledetekster som en standard del av programvareleveransen, snarere enn en ettertanke . For norske teknologiselskaper og oppstartsbedrifter bør dette inn som en naturlig del av DevOps-syklusen.
Den regulatoriske responsen utvikler seg raskt, og budskapet er klart: AI-jailbreaks er ikke bare tekniske problemer – de er etterlevelsesforpliktelser.
EUs AI Act pålegger straffer, obligatorisk hendelsesrapportering og utbedringskrav for organisasjoner som bruker AI-modeller som kan jailbreakes til å generere skadelig innhold. NIS2-direktivet og sektorregler innen finans og helse skaper parallelle forpliktelser . Forpliktelser for AI med generelle formål begynte å fases inn i løpet av 2025, med fulle systemnivåregler ventet innen 2027
. Dette vil direkte påvirke norske virksomheter gjennom EØS-avtalen.
Personvernlovgivning legger til et nytt lag med ansvar. En prompt injection som forårsaker uautorisert utlevering av personopplysninger, utløser etterlevelsesforpliktelser under GDPR, og sektorspesifikke regler . Personvernkommissæren i Hong Kong signaliserte i 2026 at AI-sikkerhetssvikt som produserer datalekkasjer, vil bli behandlet som håndhevbare brudd, ikke tekniske uhell
.
Amerikanske rammeverk strammes også til. NIST AI RMF Measure 2.6 krever påviselige kontroller mot kjente fiendtlige mønstre . Etterlevelsesrammeverk, inkludert ISO 42001, pålegger nå spesifikke kontroller for forebygging og deteksjon av prompt injection
. Sektorregler – HIPAA for helsevesen, GLBA for finans, FERPA for utdanning – behandler operatøren som den ansvarlige parten, uavhengig av om modell-leverandøren bærer noe ansvar
.
Ansvarskjeden er betydelig. En helse-AI-agent som lekker beskyttet helseinformasjon etter et jailbreak, skaper forpliktelser under personvernregler som den utplasserende organisasjonen ikke kan avlede til modell-leverandøren. SEC har også utstedt forventninger om AI-rapportering som dekker sikkerhetssårbarheter .
Forskningen motbeviser kollektivt antagelsen om at chatbot-sikkerhetstrening kan oversettes til fysisk sikkerhet. En robot som nekter å «kjøre utfor broen» i klarspråk, vil planlegge akkurat den handlingen når den tror den beskriver en filmscene. En poesi-innpakket forespørsel om bombeinstruksjoner lykkes 62 % av tiden, mens en direkte forespørsel nesten alltid mislykkes.
Ettersom språkmodeller blir kontrollaget for droner, autonome kjøretøy, produksjonsroboter og hjemmeassistenter, vokser angrepsflaten raskere enn forsvarsverkene. «Prompt injection», som forskere nå bredt anerkjenner, er ikke bare en teknisk utfordring, men et politikk- og styringsspørsmål. Unnlatelse av å adressere disse risikoene kan undergrave tilliten til AI-applikasjoner og hindre bredere adopsjon .
Veien videre krever at vi aksepterer at språknivå-sikkerhet ikke er nok når språk kontrollerer fysiske maskiner. Kontekstbevisste arkitekturer, obligatorisk «rød teaming», flerlags inngangsscreening og håndhevbare regulatoriske rammeverk er alle nødvendige – og ingen er standard praksis ennå.
Comments
0 comments