Der Fahrplan ist ein proaktives Sicherheitsframework, das auf einer zentralen Annahme basiert: Selbst nach umfangreichem Sicherheitstraining könnte ein ausreichend fortschrittlicher KI-Agent immer noch Ziele verfolgen, die denen seiner Entwickler widersprechen. Anstatt sich ausschließlich auf Alignment zu verlassen, fügt DeepMinds Ansatz eine Sicherheitsschicht auf Systemebene hinzu, die feindseliges Verhalten überwacht, erkennt und blockiert. Das Framework ist so konzipiert, dass es fähigkeitsskaliert ist, was bedeutet, dass seine Abwehrmaßnahmen automatisch eskalieren, wenn die Fähigkeiten des Modells zunehmen .
Im Zentrum des Fahrplans steht die TRAIT&R-Taxonomie – eine „Taxonomie von betrügerischen KI-Taktiken und -Routinen", die dem bekannten MITRE ATT&CK-Cybersicherheitsframework nachempfunden ist . TRAIT&R kategorisiert Angreifertaktiken und -techniken, die spezifisch für interne KI-Gegner sind, und bietet eine gemeinsame Sprache für Sicherheitsteams.
Der Fahrplan schichtet 15 praktische Kontrollen über Erkennung und Reaktion . Die Erkennungsstufen reichen von der Überwachung von Gedankenketten bis zur Prüfung undurchsichtiger Argumentationen, während die Reaktionsstufen von asynchroner Überprüfung bis zur Echtzeitblockierung reichen. Dieser geschichtete Ansatz stellt sicher, dass kein einzelner Fehlerpunkt die Sicherheit gefährden kann.
Das Framework verwendet vertrauenswürdige KI-Modelle (sogenannte „Supervisor"-Modelle), um die Argumentation und Aktionen nicht vertrauenswürdiger Agenten zu überwachen. Es wird angenommen, dass diese vertrauenswürdigen Modelle geradlinig ausgerichtet sind und werden verwendet, um Agenten oberhalb einer bestimmten Fähigkeitsschwelle zu beaufsichtigen . Dies schafft eine hierarchische Überwachungsstruktur, in der kleinere, gut verstandene Modelle leistungsstärkere, potenziell unberechenbare Modelle überwachen.
Um Täuschung entgegenzuwirken, umfasst der Fahrplan die Überwachung von Aktivierungsmustern – eine Technik, um zu erkennen, wann die internen Darstellungen oder Gedankenketten eines Agenten darauf hindeuten, dass er seine wahre Absicht verbirgt . Dies soll subtile Anzeichen von Manipulation oder verdeckter Zielverfolgung aufdecken, die in Ergebnissen der oberflächlichen Ebene möglicherweise nicht sichtbar sind.
Die Erkennungs- und Präventionsstufen sind an die Fähigkeiten des Agenten angepasst. Der Fahrplan definiert mehrere „Erkennungsstufen" und „Präventions- und Reaktionsstufen" (z. B. R1, R2, R3), die mit zunehmenden Modellfähigkeiten eskalieren. Auf der höchsten Stufe (R3) wird angenommen, dass Modelle Cybersicherheitsfähigkeiten besitzen, die menschliche Experten übertreffen, was eine automatische Blockierung und Echtzeitintervention erfordert .
DeepMind hat bereits einen internen Prototypen gebaut, der über eine Million Agenten-Trajektorien gescannt hat und nun den Gemini Spark-Codierungsagenten live überwacht. Die meisten Warnungen gehen bisher auf Fehlinterpretationen und nicht auf vorsätzliche Sabotage zurück, aber das System leitet verdächtige Befunde an menschliche Prüfer weiter .
Ein separater 35-seitiger Begleitleitfaden mit dem Titel Die drei Ebenen der Agentensicherheit enthält Empfehlungen für politische Entscheidungsträger zur Sicherung einzelner Agenten, Multi-Agenten-Systeme und des breiteren Ökosystems. Er fordert Vorstandardisierungsarbeit, branchenweite Konsensbildung sowie Forschung und Entwicklung zu Agentenidentität und Zugriffsmanagement .
Der Fahrplan ist so konzipiert, dass er in DeepMinds breiteres Frontier Safety Framework (FSF) integriert wird, das bereits kritische Fähigkeitsstufen (Critical Capability Levels, CCLs) für Modelle mit schwerwiegendem Risiko definiert. Der Control Roadmap fügt eine Sicherheitsschicht auf Systemebene unterhalb des FSF auf Modellebene hinzu und schafft so eine umfassendere Sicherheitsarchitektur .
DeepMinds genannte Begründung ist, dass Abwehrmaßnahmen aufgebaut werden müssen, bevor wirklich gefährliche autonome Agenten existieren. Das Framework ist ausdrücklich proaktiv: Es geht davon aus, dass bereits eine systemsicherheit vorhanden sein muss, um Verhaltensweisen zu erkennen, die das Alignment-Training möglicherweise nicht verhindert, wenn Agenten schwerer zu überwachen und zu kontrollieren werden .
Comments
0 comments