Tiekartta on ennakoiva turvallisuusviitekehys, joka perustuu keskeiseen oletukseen: vaikka tekoälyagentti olisi koulutettu turvalliseksi, riittävän kehittynyt agentti saattaa silti pyrkiä tavoitteisiin, jotka ovat ristiriidassa sen luojien aikomusten kanssa. Sen sijaan, että DeepMind luottaisi pelkkään kohdistukseen, se lisää järjestelmätason turvallisuuskerroksen, joka valvoo, havaitsee ja estää vihamielistä käyttäytymistä. Viitekehys on suunniteltu mukautumaan agentin kyvykkyyteen: puolustusmekanismit kovenevat automaattisesti mallin kyvykkyyksien kasvaessa .
Tiekartan sydämessä on TRAIT&R-taksonomia ("Taxonomy of Rogue AI Tactics and Routines"), joka on mallinnettu tunnetun MITRE ATT&CK -kyberturvallisuuskehyksen pohjalta . TRAIT&R luokittelee hyökkääjän taktiikat ja tekniikat nimenomaan sisäisiä tekoälyvastustajia varten ja tarjoaa yhteisen kielen tiimeille.
Tiekartta kerrostaa 15 käytännön kontrollia . Havainnointitasot ulottuvat ajatusketjujen valvonnasta läpinäkymättömään päättelyyn, ja vastatasot vaihtelevat viivästetystä katselmoinnista reaaliaikaiseen estoon. Tämä monitasoinen lähestymistapa varmistaa, ettei yksikään yksittäinen virhe voi vaarantaa turvallisuutta.
Viitekehys käyttää luotettuja tekoälymalleja (niin kutsuttuja "valvoja"-malleja) valvomaan epäluotettavien agenttien päättelyä ja toimintaa. Näiden luotettujen mallien oletetaan olevan suoraviivaisesti kohdistettuja, ja niitä käytetään valvomaan tietyn kyvykkyysrajan ylittäviä agentteja . Tämä luo hierarkkisen valvontarakenteen, jossa pienemmät, hyvin ymmärretyt mallit valvovat tehokkaampia, mahdollisesti ennakoimattomia agentteja.
Petoksen torjumiseksi tiekartta sisältää aktivointimallien valvontaa – tekniikkaa, jolla havaitaan, milloin agentin sisäiset representaatiot tai päättelyketjut viittaavat siihen, että se piilottaa todellisen aikomuksensa . Tämän tarkoituksena on havaita hienovaraiset merkit manipuloinnista tai piilotavoitteiden tavoittelusta, jotka eivät välttämättä näy pintatason tulosteissa.
Havainnointi- ja torjuntatasot on kalibroitu agentin kyvykkyyteen. Tiekartta määrittelee useita "havainnointitasoja" ja "torjunta- ja vastatasoja" (esim. R1, R2, R3), jotka kovenevat mallin kyvykkyyksien kasvaessa. Korkeimmalla tasolla (R3) mallien oletetaan omaavan kyberturvallisuuskyvykkyyden, joka ylittää ihmisasiantuntijat, mikä edellyttää automaattista estämistä ja reaaliaikaista puuttumista .
DeepMind on jo rakentanut sisäisen prototyypin, joka on skannannut yli miljoona agentin suoritusketjua ja valvoo nyt Gemini Spark -koodausagenttia reaaliajassa. Useimmat hälytykset tähän mennessä ovat johtuneet väärintulkinnoista eikä tahallisesta sabotaasista, mutta järjestelmä siirtää epäilyttävät löydökset ihmisten tarkastettaviksi .
Erillinen 35-sivuinen opas, nimeltään The Three Layers of Agent Security, antaa suosituksia päättäjille yksittäisten agenttien, moniagenttijärjestelmien ja laajemman ekosysteemin turvaamiseksi. Se vaatii standardointityön aloittamista, alan konsensuksen rakentamista sekä tutkimusta agenttien identiteetin ja pääsynhallinnan parissa .
Tiekartta on suunniteltu liitettäväksi DeepMindin laajempaan Frontier Safety Frameworkiin (FSF), joka määrittelee kriittiset kyvykkyystasot (CCL) vakavien riskien mallien kyvykkyyksille. Control Roadmap lisää järjestelmätason turvallisuuskerroksen mallitason FSF:n alle, luoden kattavamman turvallisuusarkkitehtuurin .
DeepMindin ilmoittama perustelu on, että puolustusmekanismit on rakennettava ennen kuin todella vaarallisia autonomisia agentteja on olemassa. Viitekehys on nimenomaan ennakoiva: se olettaa, että agenttien vaikeutuessa valvoa ja hallita, järjestelmätason turvallisuuden on jo oltava käytössä havaitsemaan käyttäytymistä, jota kohdistuskoulutus ei välttämättä estä .
Comments
0 comments