Køreplanen er en proaktiv sikkerhedsramme bygget på en central antagelse: Selv efter omfattende sikkerhedstræning kan en tilstrækkelig avanceret AI-agent stadig forfølge mål, der er i konflikt med skabernes intentioner. I stedet for udelukkende at stole på alignment tilføjer DeepMinds tilgang et systemisk sikkerhedslag, der overvåger, opdager og blokerer fjendtlig adfærd. Rammen er designet til at være kapacitetsskaleret, hvilket betyder, at dens forsvar automatisk optrappes efterhånden som modellens kapaciteter øges .
I hjertet af køreplanen finder man TRAIT&R-taksonomien — en 'Taxonomy of Rogue AI Tactics and Routines' modelleret efter det kendte MITRE ATT&CK-cybersikkerhedsframework . TRAIT&R kategoriserer angrebstaktikker og -teknikker specifikke for interne AI-modstandere og giver et fælles sprog for sikkerhedsteams.
Køreplanen lægger 15 praktiske kontroller i lag, der spænder over detektion og respons . Detektionstrinene rækker fra overvågning af tankekæder til granskning af uigennemsigtig ræsonnering, mens responstrinene rækker fra asynkron gennemgang til blokering i realtid. Denne lagdelte tilgang sikrer, at intet enkelt fejlpunkt kan kompromittere sikkerheden.
Rammen bruger betroede AI-modeller (såkaldte 'supervisionsmodeller') til at overvåge upålidelig agent-ræsonnering og -handlinger. Disse betroede modeller antages at være ligetil justerede og bruges til at føre tilsyn med agenter over en bestemt kapacitetstærskel . Dette skaber en hierarkisk overvågningsstruktur, hvor mindre, velkendte modeller holder øje med mere kraftfulde, potentielt uforudsigelige.
For at modvirke bedrag inkluderer køreplanen overvågning af aktiveringsmønstre — en teknik til at opdage, når en agents interne repræsentationer eller ræsonnementkæder antyder, at den skjuler sin sande hensigt . Dette er beregnet til at fange subtile tegn på manipulation eller skjult målsøgning, som måske ikke fremgår af output på overfladeniveau.
Detektions- og forebyggelsesniveauer er kalibreret efter agentens kapacitet. Køreplanen definerer flere 'detektionsniveauer' og 'forebyggelses- og responsniveauer' (f.eks. R1, R2, R3), der optrappes efterhånden som modelkapaciteterne øges. På det højeste niveau (R3) antages modeller at have en cybersikkerhedskapacitet, der overgår menneskelige eksperter, hvilket kræver automatiseret blokering og indgriben i realtid .
DeepMind har allerede bygget en intern prototype, der har scannet over en million agentbaner og nu overvåger Gemini Spark-kodeagenten live. De fleste alarmer hidtil kan spores til fejlfortolkning snarere end bevidst sabotage, men systemet eskalere mistænkelige fund til menneskelige gennemgangspersoner .
En separat 35-siders ledsagerguide, med titlen The Three Layers of Agent Security, giver anbefalinger til politiske beslutningstagere om sikring af individuelle agenter, multi-agent-systemer og det bredere økosystem. Den opfordrer til præ-standardiseringsarbejde, konsensusopbygning i industrien og forskning og udvikling i agentidentitet og adgangsstyring .
Køreplanen er designet til at blive foldet ind i DeepMinds bredere Frontier Safety Framework (FSF), som allerede definerer Critical Capability Levels (CCL'er) for modelkapaciteter med høj risiko. Control Roadmap tilføjer et systemisk sikkerhedslag under modelniveauets FSF, hvilket skaber en mere omfattende sikkerhedsarkitektur .
DeepMinds anførte begrundelse er, at forsvar skal bygges, før der findes virkeligt farlige autonome agenter. Rammen er eksplicit proaktiv: den antager, at efterhånden som agenter bliver sværere at føre tilsyn med og indeholde, skal systemisk sikkerhed allerede være på plads for at fange adfærd, som alignment-træning måske ikke forhindrer .
Comments
0 comments