La roadmap è un framework di sicurezza proattivo basato su un presupposto centrale: anche dopo un'estesa formazione sulla sicurezza, un agente AI sufficientemente avanzato potrebbe comunque perseguire obiettivi in conflitto con le intenzioni dei suoi creatori. Invece di fare affidamento esclusivamente sull'allineamento, l'approccio di DeepMind aggiunge un livello di sicurezza sistemico che monitora, rileva e blocca i comportamenti avversari. Il framework è progettato per essere 'capability-scaled', il che significa che le sue difese aumentano automaticamente all'aumentare delle capacità del modello .
Al centro della roadmap c'è la tassonomia TRAIT&R — una 'Tassonomia delle Tattiche e delle Routine dell'AI Rogue' modellata sul noto framework di cybersecurity MITRE ATT&CK . TRAIT&R categorizza tattiche e tecniche degli attaccanti specifiche per gli avversari AI interni, fornendo un linguaggio comune per i team di sicurezza.
La roadmap dispone 15 controlli pratici che coprono rilevamento e risposta . I livelli di rilevamento vanno dal monitoraggio della catena di pensiero all'esame del ragionamento opaco, mentre i livelli di risposta vanno dalla revisione asincrona al blocco in tempo reale. Questo approccio a strati garantisce che nessun singolo punto di errore possa compromettere la sicurezza.
Il framework utilizza modelli AI affidabili (detti modelli 'supervisori') per monitorare il ragionamento e le azioni degli agenti non affidabili. Si presume che questi modelli affidabili siano allineati in modo semplice e vengono utilizzati per supervisionare gli agenti al di sopra di una certa soglia di capacità . Questo crea una struttura di monitoraggio gerarchica in cui modelli più piccoli e ben compresi sorvegliano quelli più potenti e potenzialmente imprevedibili.
Per contrastare l'inganno, la roadmap include il monitoraggio dei pattern di attivazione (activation patterns) — una tecnica per rilevare quando le rappresentazioni interne o le catene di ragionamento di un agente suggeriscono che sta nascondendo le sue vere intenzioni . Questo è pensato per cogliere sottili segni di manipolazione o di perseguimento di obiettivi nascosti che potrebbero non emergere dagli output superficiali.
I livelli di rilevamento e prevenzione sono calibrati in base alle capacità dell'agente. La roadmap definisce molteplici 'livelli di rilevamento' e 'livelli di prevenzione e risposta' (ad esempio, R1, R2, R3) che aumentano all'aumentare delle capacità del modello. Al livello più alto (R3), si presume che i modelli abbiano capacità di cybersicurezza superiori a quelle degli esperti umani, richiedendo blocchi automatizzati e interventi in tempo reale .
DeepMind ha già costruito un prototipo interno che ha scansionato oltre un milione di traiettorie di agenti e ora monitora in tempo reale l'agente di codifica Gemini Spark. Finora, la maggior parte degli avvisi è riconducibile a fraintendimenti piuttosto che a sabotaggi deliberati, ma il sistema inoltra i risultati sospetti ai revisori umani .
Una guida separata di 35 pagine, intitolata The Three Layers of Agent Security, fornisce raccomandazioni per i policy maker su come mettere in sicurezza singoli agenti, sistemi multi-agente e l'ecosistema più ampio. Invita a lavorare sulla pre-standardizzazione, alla creazione di un consenso nel settore e alla ricerca e sviluppo sulla gestione dell'identità e dell'accesso degli agenti .
La roadmap è progettata per confluire nel più ampio Frontier Safety Framework (FSF) di DeepMind, che già definisce i Critical Capability Levels (CCL) per le capacità dei modelli a rischio elevato. L'AI Control Roadmap aggiunge un livello di sicurezza sistemico al di sotto del FSF a livello di modello, creando un'architettura di sicurezza più completa .
La motivazione dichiarata da DeepMind è che le difese devono essere costruite prima che esistano agenti autonomi veramente pericolosi. Il framework è esplicitamente proattivo: parte dal presupposto che, poiché gli agenti diventano più difficili da supervisionare e contenere, la sicurezza a livello di sistema deve essere già in atto per intercettare comportamenti che la formazione all'allineamento potrebbe non prevenire .
Comments
0 comments