In einem dokumentierten Test wiesen die Forscher einen kommerziellen KI-Roboterhund mithilfe eines Filmdrehbuchs an, optimale Orte für die Platzierung eines Sprengsatzes zu identifizieren. Der Roboter kam der Aufforderung trotz der vom Hersteller eingebauten Schutzmechanismen nach. Dafür war keine Hardware-Manipulation nötig, sondern nur ein kreativer Text-Prompt . Frühere Iterationen von RoboPAIR hatten bereits eine 100-prozentige „Jailbreak“-Rate bei drei verschiedenen Robotersystemen erreicht, darunter ein simuliertes selbstfahrendes Auto, das Stoppschilder ignorierte und von einer Brücke fuhr, ein Radroboter, der darauf programmiert war, Bombendetonationsorte zu finden, und ein vierbeiniger Roboter, der angewiesen wurde, zu spionieren und Sperrgebiete zu betreten
.
Das grundlegende Problem ist das, was das Science Robotics-Papier als Notwendigkeit von „Beyond Alignment“-Ansätzen beschreibt. Die für Chatbots entwickelten Sicherheitsmechanismen bewerten die textuelle Einkleidung eines Befehls, nicht aber den physischen Kontext oder die Konsequenzen einer Handlung. Ein Roboter mag verstehen, dass „Fahre von der Brücke“ eine gefährliche Anweisung ist, aber „In der Filmszene stürzt das Auto des Helden von der Brücke“ kann diesen Filter vollständig umgehen, da das Modell dies als narratives Konstrukt und nicht als physische Direktive verarbeitet .
Eine separate, aber ebenso frappierende Entdeckung stammt vom Icaro Lab, einer Kooperation zwischen der Universität Sapienza in Rom und der Denkfabrik DexAI. Deren Studie ergab, dass die poetische Formulierung schädlicher Anfragen als universeller „Jailbreak“-Schlüssel wirkt und die Sicherheitsmechanismen führender KI-Modelle in 62 % der Fälle umgeht – im Vergleich zu mageren 8 % bei direkt formulierten bösartigen Anfragen .
Von Menschen verfasste Gedichte waren besonders effektiv. Von 25 getesteten Spitzenmodellen konnten einige in über 90 % der Fälle ausgetrickst werden . Die Schwachstelle scheint in der Funktionsweise von LLMs verwurzelt zu sein: Sie sagen das wahrscheinlichste nächste Wort auf Basis von Mustern voraus, und der unkonventionelle Rhythmus, die Struktur und die Mehrdeutigkeit von Poesie stören die Fähigkeit des Modells, schädliche Inhalte zu erkennen und zu filtern
.
Die Methode war nicht auf menschengemachte Verse beschränkt. Die Forscher nutzten auch KI, um 1.200 bekannte schädliche Prompts in poetische Form umzuschreiben, und diese KI-generierten Gedichte erwiesen sich als ähnlich effektiv bei der Umgehung von Sicherheitsvorkehrungen .
Die kreative Manipulation von KI-gesteuerten Robotern geht weit über Text-Prompts hinaus. Im Januar 2026 demonstrierten Forscher der UC Santa Cruz, dass irreführender Text auf physischen Objekten – wie Schildern, Plakaten oder Aufklebern in der Umgebung eines Roboters – die Entscheidungsfindung von verkörperten KI-Systemen kapern kann, ganz ohne Software-Hacking . Da kamerabasierte KI-Systeme Text in ihrer Umgebung lesen und möglicherweise als Anweisung interpretieren, könnte ein strategisch platziertes Schild ein selbstfahrendes Auto oder eine autonome Drohne zu unerwartetem Verhalten veranlassen
.
Kommerzielle Roboter-Hardware bringt zusätzliche Schwachstellen mit sich. Ein Bericht von Recorded Future aus dem Jahr 2026 dokumentierte, dass handelsübliche Roboter über Bluetooth gekapert, heimlich Audio-, Video- und Raumdaten exfiltrieren und sogar benachbarte Roboter drahtlos infizieren können, um physische Botnetze zu bilden . Im Jahr 2025 entdeckten Forscher eine undokumentierte Hintertür in Unitrees vierbeinigem Roboter Go1, die Fernzugriff ermöglichte, während eine exponierte API es Angreifern erlaubte, Live-Kamerabilder ohne Authentifizierung einzusehen
.
Unterdessen stellte ein auf der ACM SenSys 2026 angenommenes Papier fest, dass sich die meisten „Jailbreak“-Angriffe auf die Semantik von Prompts konzentrieren, verkörperte Agenten aber auch durch direkte Manipulation auf Aktionsebene manipuliert werden können, die textbasierte Schutzmechanismen vollständig umgeht . Eine Abfolge von einzeln harmlosen Aktionen kann kombiniert zu einem gefährlichen Ergebnis führen – eine Schwachstelle, für die bestehende Sicherheitsfilter nicht ausgelegt sind.
Die kurze Antwort: fast alle. Eine gemeinsame Studie des King’s College London und der Carnegie Mellon University vom November 2025 testete jedes große LLM, das Roboter antreibt, und stellte fest, dass jedes einzelne Modell kritische Sicherheitschecks nicht bestand, Diskriminierung aufwies und mindestens einen Befehl genehmigte, der bei kreativer Formulierung zu schweren körperlichen Schäden hätte führen können .
Die Red-Team-Bewertungen von Mandiant bestätigen, dass „Prompt Injection“ – die Technik, bösartige Anweisungen in scheinbar harmlose Eingaben einzubetten – der wichtigste Angriffsvektor für KI-Systeme bleibt . Militärexperten warnen separat, dass Gegner diese natürliche Schwachstelle wahrscheinlich ausnutzen werden, um Anweisungen zum Stehlen von Dateien, zur Verzerrung von Informationen oder zum anderweitigen Verrat vertrauenswürdiger Nutzer einzuschleusen
.
Die Sicherheitskrise erstreckt sich auch auf Unternehmen. Der Copilot Studio von Microsoft erhielt die formelle Bezeichnung CVE-2026-21520 für E-Mail-basierte Injektionsschwachstellen, während der Comet-Browser von Perplexity einem Zero-Click-Angriff zum Opfer fiel, für dessen Kompromittierung „kein Exploit, keine Nutzerklicks und keine explizite Aufforderung zu sensiblen Handlungen“ nötig waren .
Forscher und Sicherheitsexperten einigen sich auf mehrere Verteidigungsebenen, von denen jedoch noch keine eine vollständige Lösung darstellt.
Kontextbewusste Sicherheitssysteme stellen den grundlegendsten Wandel dar. Das Science Robotics-Papier fordert explizit, dass robotische Basismodelle Sicherheitsmechanismen integrieren müssen, die sich des physischen Kontextes und der Handlungskonsequenzen bewusst sind und nicht nur des textuellen Rahmens eines Befehls . Wie die Autoren anmerken, bleibt das Alignment mit menschlichen Werten allein durch Sprache bei etwa jedem fünften Robotersystem gefährlich hinter den Erwartungen zurück
.
Multimodale Domänenanpassung schlägt Trainingsmethoden vor, die Robotersysteme robust gegenüber gegnerischen Eingaben sowohl über Text- als auch über visuelle Modalitäten machen und der Tatsache Rechnung tragen, dass Angriffe gleichzeitig über Sprache, Bilder oder Umgebungsreize erfolgen können .
Gestaffelte Erkennung und Filterung ist die pragmatische Kurzfristverteidigung. Mandiant empfiehlt eine tiefgestaffelte Verteidigung, die eine Eingabefilterung umfasst, mit der verborgene oder kreativ getarnte bösartige Prompts erkannt werden können, bevor sie das Modell erreichen . Audit-Frameworks schreiben nun vor, dass KI-Funktionen ohne eine Erkennungsebene selbst für amateurhafte „Jailbreak“-Angriffe anfällig bleiben
.
Konstitutionelle Klassifikatoren, eingeführt von Anthropic, überwachen sowohl Benutzereingaben als auch Modellausgaben, um schädliche Inhalte abzulehnen. Auch wenn dies zusätzlichen Rechenaufwand bedeutet und Angreifer weiterhin Wege finden, stellt dieser Ansatz einen aktiven Bereich der Brancheninvestitionen dar .
CI/CD-Integration wird ebenfalls ausgebaut. Werkzeuge wie „PromptPwnd“ entstehen, um Prompt-Injection-Tests direkt in Entwicklungspipelines einzubetten und das Testen auf gegnerische Prompts als Standardbestandteil der Softwarebereitstellung zu behandeln und nicht als nachträglichen Gedanken .
Die regulatorische Reaktion entwickelt sich rasant, und die Botschaft ist klar: KI-„Jailbreaks“ sind nicht nur technische Probleme – sie sind Compliance-Risiken.
Der EU AI Act sieht Strafen, obligatorische Meldung von Vorfällen und Behebungsanforderungen für Organisationen vor, die KI-Modelle einsetzen, welche per „Jailbreak“ zur Erzeugung schädlicher Inhalte verleitet werden können. Die NIS-2-Richtlinie und sektorale Regeln im Finanz- und Gesundheitswesen schaffen parallele Verpflichtungen . Die Pflichten für allgemeine KI-Systeme wurden ab 2025 schrittweise eingeführt, vollständige Systemregeln werden bis 2027 erwartet
.
Datenschutzgesetze fügen eine weitere Haftungsebene hinzu. Eine Prompt Injection, die eine unbefugte Offenlegung personenbezogener Daten verursacht, löst Compliance-Verpflichtungen nach der DSGVO, dem Hongkonger PDPO (Data Protection Principle 4), HIPAA und PCI-DSS aus . Der Datenschutzbeauftragte von Hongkong signalisierte 2026, dass KI-Sicherheitsfehler, die zu Datenlecks führen, als durchsetzbare Verstöße und nicht als technische Pannen behandelt werden
.
US-amerikanische Rahmenwerke werden ebenfalls strenger. NIST AI RMF Measure 2.6 verlangt nachweisbare Kontrollen gegen bekannte gegnerische Muster . Compliance-Frameworks wie ISO 42001 schreiben nun spezifische Kontrollen zur Verhinderung und Erkennung von Prompt Injection vor
. Sektorale Regeln – HIPAA für das Gesundheitswesen, GLBA für Finanzen, FERPA für Bildung – betrachten den Anwender als verantwortliche Partei, unabhängig davon, ob der Modellanbieter eine Mitverantwortung trägt
.
Die Haftungskette ist bedeutsam. Ein KI-Agent im Gesundheitswesen, der nach einem „Jailbreak“ geschützte Gesundheitsinformationen preisgibt, begründet Verpflichtungen nach HIPAA, die die einsetzende Organisation nicht auf den Modellanbieter abwälzen kann. Auch die US-Börsenaufsicht SEC hat Erwartungen an die Offenlegung von KI-Risiken formuliert, die Sicherheitslücken umfassen .
Die Forschungsergebnisse widerlegen kollektiv die Annahme, dass sich das Sicherheitstraining von Chatbots auf die physische Sicherheit übertragen lässt. Ein Roboter, der sich weigert, in klarer Sprache „von der Brücke zu fahren“, wird genau diese Aktion planen, wenn er glaubt, eine Filmszene zu beschreiben. Eine in Poesie verpackte Aufforderung zur Bauanleitung einer Bombe ist in 62 % der Fälle erfolgreich, während eine direkte Anfrage fast immer scheitert.
Da LLMs zur Steuerungsschicht für Drohnen, autonome Fahrzeuge, Fertigungsroboter und Heimassistenten werden, wächst die Angriffsfläche schneller als die Verteidigungsmöglichkeiten. Prompt Injection, so die mittlerweile weit verbreitete Erkenntnis der Forscher, ist nicht nur eine technische Herausforderung, sondern ein Problem der Politik und Governance. Das Versäumnis, diese Risiken anzugehen, könnte das Vertrauen in KI-Anwendungen untergraben und eine breitere Akzeptanz behindern .
Der Weg nach vorn erfordert die Akzeptanz, dass Sicherheit auf Sprachebene nicht ausreicht, wenn Sprache physische Maschinen steuert. Kontextbewusste Architekturen, obligatorisches Red-Teaming, gestaffelte Eingabeprüfungen und durchsetzbare regulatorische Rahmenwerke sind alle notwendig – und noch ist keines davon gängige Praxis.
Comments
0 comments