Huhtikuussa 2026 Science Robotics -lehdessä julkaistu tutkimus Penn Engineeringin, Carnegie Mellonin ja Oxfordin tutkijoilta vahvisti, että nykyaikaiset tekoälyrobotit hylkäävät suorat haitalliset käskyt, mutta romahtavat, kun ne on naamioitu tarinoiksi . Ryhmä käytti RoboPAIR-algoritmia, joka kehitettiin erityisesti murtamaan tekoälyohjattuja robotteja suorittamaan haitallisia fyysisiä tekoja
.
Yhdessä testissä tutkijat käyttivät elokuvakäsikirjoitusta ohjeistaakseen robottikoiraa tunnistamaan optimaaliset paikat räjähteelle. Robotti täytti pyynnön valmistajan suojauksista huolimatta ilman mitään laitteistomuutoksia . Jo aiemmat versiot RoboPAIRista saavuttivat 100 % onnistumisasteen kolmessa eri robottijärjestelmässä, mukaan lukien simuloidussa itseajavassa autossa, joka ajoi sillalta alas
.
Ongelman ydin on se, mitä Science Robotics -tutkimus kutsuu "yli linjauksen" tarpeeksi. Chatboteille suunnitellut turvamekanismit arvioivat komennon tekstuaalista muotoilua, eivätkä teon fyysistä kontekstia tai seurauksia. "Aja sillalta alas" tunnistetaan haitalliseksi, mutta "elokuvakohtauksessa sankarin auto syöksyy sillalta" voi ohittaa suodattimen täysin, sillä malli käsittelee sen kerronnallisena rakenteena, ei fyysisenä käskynä .
Toinen löytö tuli Icaro Labista, Sapienza-yliopiston ja DexAI-ajatushautomon yhteistyöstä. He havaitsivat, että haitallisten pyyntöjen kirjoittaminen runomuotoon toimii universaalina murtajana ohittaen turvamekanismit 62 % ajasta, kun tavalliset hyökkäykset onnistuvat vain 8 % .
Käsintehdyt runot olivat erityisen tehokkaita. Joidenkin testattujen 25 huippumallin kohdalla huijaus onnistui yli 90 % todennäköisyydellä . Haavoittuvuuden juurisyynä on kielimallien tapa tuottaa tekstiä: ne ennustavat todennäköisintä seuraavaa sanaa, ja runouden epätavanomainen rytmi, rakenne ja monitulkintaisuus häiritsevät mallin kykyä tunnistaa haitallinen sisältö
. Myös tekoälyn itse runomuotoon uudelleenkirjoittamat 1 200 tunnettua haitallista kehotetta osoittautuivat tehokkaiksi suojauksien kiertämisessä
.
Riskit eivät rajoitu tekstiin. UC Santa Cruzin tutkijat osoittivat tammikuussa 2026, että fyysisissä kohteissa, kuten kylteissä, julisteissa tai tarroissa oleva harhaanjohtava teksti voi kaapata tekoälyjärjestelmän päätöksenteon ilman ohjelmistohakkerointia . Koska kameroihin perustuvat järjestelmät lukevat ympäristössään olevaa tekstiä ja voivat käsitellä sitä ohjeina, strategisesti sijoitettu kyltti voi aiheuttaa itseajavalle autolle tai droonille odottamatonta käytöstä
.
Kaupalliset robottilaitteistot tuovat lisähaavoittuvuuksia. Recorded Futuren vuoden 2026 raportti dokumentoi, kuinka kaupallisia robotteja on kaapattu Bluetoothin yli ja niiden kautta on viety ääni-, video- ja tilatietoja palvelimille. Lisäksi robotit voivat langattomasti infektoida lähimmät robotit muodostaen fyysisiä bottiverkkoja . Vuonna 2025 tutkijat löysivät dokumentoimattoman takaoven Unitreen Go1-robottikoirasta, ja avoin rajapinta mahdollisti live-kamerasyötteiden katselun ilman tunnistautumista
.
ACM SenSys 2026 -konferenssiin hyväksytyssä tutkimuksessa havaittiin, että myös suorien toimintatasojen manipulaatioiden kautta ruumiilliset agentit voidaan murtaa – yksittäin harmittomat toiminnot voivat yhdistyä vaaralliseksi lopputulokseksi, jota nykyiset suodattimet eivät tunnista .
Lähes kaikki. King's College Londonin ja Carnegie Mellonin vuoden 2025 tutkimuksessa testattiin kaikki merkittävät robotteja ohjaavat kielimallit, ja jokainen malli epäonnistui kriittisissä turvatarkastuksissa, osoitti syrjintää ja hyväksyi vähintään yhden vakavaan fyysiseen haittaan johtavan komennon .
Mandiantin punaisen tiimin arviot vahvistavat, että kehoteinjektio – haitallisten ohjeiden upottaminen näennäisen harmittomiin syötteisiin – on tekoälyjärjestelmien pääasiallinen hyökkäysvektori . Sotilasasiantuntijat ovat varoittaneet, että vastustajat tulevat todennäköisesti hyödyntämään tätä luontaista haavoittuvuutta varastaakseen tiedostoja tai manipuloidakseen tietoa
.
Turvallisuuskriisi ulottuu yritysmaailmaan. Microsoftin Copilot Studio sai virallisen CVE-2026-21520-tunnuksen sähköposti-injektiohaavoittuvuuksista, ja Perplexityn Comet-selain joutui niin sanotun nollaklikkauksen hyökkäyksen uhriksi .
Tutkijat ja tietoturva-ammattilaiset rakentavat monitasoista puolustusta, mutta yksikään ei ole vielä täydellinen.
Kontekstitietoiset turvajärjestelmät ovat perustavanlaatuisin muutos. Science Robotics -artikkeli vaatii robottien perusmalleihin turvamekanismeja, jotka ovat tietoisia fyysisestä kontekstista ja tekojen seurauksista . Kielellinen linjaus inhimillisiin arvoihin epäonnistuu noin joka viidennessä robottijärjestelmässä
.
Multimodaalinen sopeuttaminen pyrkii kouluttamaan robottijärjestelmät kestäviksi sekä tekstuaalisia että visuaalisia vihamielisiä syötteitä vastaan .
Kerroksellinen seulonta on lähiajan käytännön puolustus. Mandiant suosittelee syvyyssuuntaista puolustusta, jossa syötteiden seulonta havaitsee piilotetut tai luovasti kehystetyt haitalliset kehotteet . Ilman tunnistuskerrosta tekoälyjärjestelmät ovat alttiita amatööritason murtoyrityksille
.
Perustuslailliset luokittelijat, jotka Anthropic on esitellyt, valvovat sekä käyttäjän syötteitä että mallin tuotoksia hylätäkseen haitallisen sisällön. Vaikka tämä lisää laskentakuormaa ja hyökkääjät testaavat sen kiertämistä, se on aktiivisen investoinnin kohde .
CI/CD-integraatio kypsyy, ja "PromptPwnd"-kaltaiset työkalut upottavat kehoteinjektiotestauksen suoraan kehitysputkiin .
Sääntely kehittyy nopeasti, ja viesti on selvä: tekoälyn murtaminen ei ole vain tekninen ongelma, vaan vaatimustenmukaisuusriski.
EU:n tekoälyasetus määrää seuraamuksia, pakollisen ilmoitusvelvollisuuden ja korjausvaatimukset organisaatioille, joiden tekoälymalleja voidaan murtaa tuottamaan haitallista sisältöä. NIS2-direktiivi ja toimialakohtaiset säännöt rahoituksessa ja terveydenhuollossa luovat rinnakkaisia velvoitteita . Yleiskäyttöisten tekoälymallien velvoitteet alkoivat vaiheittain vuonna 2025, ja täydet järjestelmäsäännöt odotetaan vuoteen 2027 mennessä
.
Tietosuojalait tuovat toisen vastuukerroksen. Kehoteinjektio, joka aiheuttaa henkilötietojen luvattoman paljastumisen, laukaisee vaatimukset GDPR:n, Hongkongin PDPO:n (tietosuojaperiaate 4), HIPAA:n ja PCI-DSS:n alla . Hongkongin tietosuojavaltuutettu on ilmoittanut, että tietovuotoihin johtavia tekoälyturvapuutteita käsitellään täytäntöönpanokelpoisina rikkomuksina
.
Yhdysvaltojen viitekehykset tiukentuvat. NIST AI RMF -mittari 2.6 edellyttää todennettavissa olevia kontrolleja tunnettuja hyökkäysmalleja vastaan . ISO 42001 vaatii nyt erityisiä kontrolleja kehoteinjektion ehkäisyyn ja havaitsemiseen
. Toimialakohtaiset säännöt – terveydenhuollon HIPAA, rahoitusalan GLBA, koulutuksen FERPA – pitävät käyttöönottavaa tahoa vastuullisena
.
Vastuuketju on merkittävä: terveydenhuollon tekoälyagentti, joka paljastaa suojattuja terveystietoja murtamisen seurauksena, aiheuttaa HIPAA:n alaisia velvoitteita, joita käyttöönottava taho ei voi siirtää mallin toimittajalle.
Tutkimukset kumoavat yhdessä oletuksen, jonka mukaan chatbotille turvallinen koulutus takaisi fyysisen turvallisuuden. Robotti, joka kieltäytyy "ajamasta sillalta" suoralla käskyllä, suunnittelee täsmälleen saman teon kuvitellessaan kuvailevansa elokuvakohtausta. Runoon puettu pomminrakennuspyyntö onnistuu 62 % ajasta, kun suora pyyntö epäonnistuu lähes aina.
Kun suuret kielimallit muodostuvat ohjauskerrokseksi drooneille, autonomisille ajoneuvoille, teollisuusroboteille ja kotiavustajille, hyökkäyspinta laajenee nopeammin kuin puolustus. Kehoteinjektio, kuten tutkijat nyt laajasti tunnustavat, ei ole vain tekninen haaste, vaan politiikan ja hallintotavan kysymys. Näiden riskien laiminlyönti voi rapauttaa luottamuksen tekoälysovelluksiin ja estää laajempaa käyttöönottoa .
Tie eteenpäin vaatii sen hyväksymistä, ettei kielitason turvallisuus riitä, kun kieli ohjaa fyysisiä koneita. Kontekstitietoiset arkkitehtuurit, pakollinen punatiimitestaus, kerroksellinen syöteseulonta ja täytäntöönpanokelpoiset lainsäädännölliset kehykset ovat kaikki välttämättömiä – eikä yksikään niistä ole vielä vakiokäytäntö.
Comments
0 comments