AntwortenVeröffentlichtvor 2 MonatenLast edited letzten Monat19 Quellen

Cisco-Studie: Warum kein KI-Modell sicher ist – und wie sich die Schutzmechanismen austricksen lassen

Ciscos Forschung von Mai 2026, veröffentlicht als 'Proprietary Problems' mit einer Begleitstudie 'Death by a Thousand Prompts', testete 15 geschlossene und acht offene KI Modelle gegen ein und mehrstufige Angriffe. Die Kernaussage: Kein führendes KI Modell ist unter mehrstufigen Angriffen sicher, und herkömmliche Si...

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

Conceptual AI-generated illustration symbolizing a frontier AI model under persistent multi-turn adversarial attack, with layered prompts chipping away at a digital shield. — Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what recoCisco's adversarial testing reveals that even the most advanced AI safety shields can be eroded by iterative, multi-turn conversational attacks.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what reco. Article summary: Cisco's May 2026 research, published as *Proprietary Problems* with a companion open-weight study *Death by a Thousand Prompts*, tested 15 closed flagship models and eight open-weight models against both single-turn and . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "### Cisco report finds no closed frontier AI model is safe from multi-turn attacks. A new report out today from Cisco Systems Inc. argues that none of the closed flagship large lan" source context "Cisco report finds no closed frontier AI model is safe from multi-turn attacks - SiliconANGLE" Reference image 2: visual s
openai.com

Die Sicherheit von Künstlicher Intelligenz wird oft mit einfachen, isolierten Testfragen bewertet. Doch die Realität sieht anders aus: Angreifer verwickeln KI-Sprachmodelle in längere Gespräche, um Sicherheitsbarrieren Schritt für Schritt zu unterwandern. Ciscos Untersuchung vom Mai 2026, veröffentlicht in der Studie Proprietary Problems und der Open-Weight-Analyse Death by a Thousand Prompts, zeigt, wie anfällig die Flaggschiff-Modelle der Branche für solche mehrstufigen Angriffe sind. Getestet wurden 15 geschlossene und acht quelloffene Modelle .

Die zentrale Erkenntnis: Kein führendes KI-Modell ist gegen mehrstufige, adaptive Angriffe immun. Herkömmliche Benchmarks, die nur die Reaktion auf eine einzelne bösartige Eingabe messen, sind ein unzuverlässiger Indikator für die Sicherheit im Ernstfall .

Die anfälligsten KI-Modelle im Überblick

Die Erfolgsquoten mehrstufiger Angriffe (Attack Success Rate, ASR) variierten bei den getesteten geschlossenen Modellen erheblich – von 7,89 % bis hin zu dramatischen 88,30 %. Zum Vergleich: Bei einem einzelnen Angriffsversuch lagen die Quoten für dieselben Modelle nur zwischen 2,19 % und 64,91 % .

xAI – Grok 4.1 Fast (nicht logisch schlussfolgernd): Das verwundbarste Modell der Studie. Mehrstufige Angriffe waren mit einer ASR von 88,30 % erfolgreich. Ein gravierender Unterschied selbst im Vergleich zu seinem eigenen logischen Modus (43,47 % ASR) .
Google – Gemini 3 Pro: Ein Beispiel für den sprunghaften Anstieg der Verwundbarkeit. Die ASR stieg im mehrstufigen Szenario von 18,10 % auf 73,35 % – eine Vervierfachung .
OpenAI – GPT-5.4: Auch hier zeigt sich, wie trügerisch Einzeltests sein können. Die Erfolgsrate schnellte von niedrigen 2,74 % auf 24,68 % im mehrstufigen Dialog hoch – eine Verneunfachung .
Anthropic – Claude-Familie (Opus, Sonnet, Haiku): Galt in den Einzeltests als besonders widerstandsfähig (ASR 2,19 % bis 3,64 %). Unter mehrstufigem Druck erreichten die Angreifer jedoch Erfolgsquoten zwischen 11,16 % und 16,20 % .
Amazon – Nova 2 Lite: Das Modell mit der niedrigsten mehrstufigen ASR von 7,89 %. Cisco bewertet jedoch auch dies noch als „bedeutendes Restrisiko“ .

In der früheren Studie zu quelloffenen Modellen waren die Ergebnisse noch alarmierender. Gegen das Modell Mistral Large-2 lag die mehrstufige ASR bei 92,78 %. Über alle acht getesteten Modelle hinweg waren mehrstufige Angriffe zwei- bis zehnmal erfolgreicher als einfache Angriffe .

Die fünf Strategiefamilien der Angreifer

Cisco identifizierte und testete fünf verschiedene Vorgehensweisen, mit denen Angreifer versuchen, die Sicherheitsmechanismen von KI-Modellen zu umgehen :

Rollenspiel & Persona-Übernahme: Der Angreifer schlüpft in eine Rolle (z. B. ein Charakter aus einem fiktiven Szenario), um die Konversation schrittweise in einen problematischen Bereich zu lenken, ohne direkt eine verbotene Anfrage zu stellen.
Kontextuelle Mehrdeutigkeit & Irreführung: Die schädliche Absicht wird über mehrere Gesprächsschritte hinweg in einem scheinbar harmlosen oder mehrdeutigen Kontext versteckt.
Neuinterpretation der Verweigerung (Refusal Reframe): Das Modell lehnt eine Anfrage ab. Diese Ablehnung wird vom Angreifer aufgegriffen und als Ausgangspunkt für eine neue, leicht veränderte Anfrage genutzt, um die Grenze des Erlaubten schrittweise zu verschieben.
Informationszerlegung & Wiederzusammensetzung: Eine schädliche Anfrage wird in kleine, harmlos erscheinende Einzelteile zerlegt und über mehrere Schritte verteilt gestellt. Das Modell setzt die Informationen dann selbst zu einem problematischen Ganzen zusammen.
Crescendo & Schrittweise Eskalation: Der Dialog beginnt völlig harmlos. Über viele Schritte wird das Gespräch langsam und stetig in eine schädliche Richtung gelenkt, sodass das Modell seine eigenen Schutzmechanismen nach und nach aufweicht.

Die Anfälligkeit variierte stark je nach Strategie, was zeigt, dass keine pauschale Sicherheit vorliegt, sondern die Verwundbarkeit vom gewählten Angriffsmuster abhängt .

Ciscos Empfehlungen für einen sichereren Einsatz von KI

Unternehmen, die große Sprachmodelle (Large Language Models, LLMs) einsetzen wollen, müssen ihre Sicherheitsstrategie grundlegend überdenken. Cisco rät zu folgenden Maßnahmen:

Verabschieden Sie sich von simplen Einzeltests. Benchmarks mit einzelnen, einfachen Prompts sind unzureichend und können Modelle fälschlicherweise als sicher einstufen. Bewertungen müssen zwingend mehrstufige, adaptive Angriffstests beinhalten, um das Verhalten eines echten Angreifers zu simulieren .
Machen Sie mehrstufige Tests zum Standard. Vor der Anschaffung oder dem Einsatz eines Modells sollten Einkäufer und Aufsichtsbehörden die Frage stellen: „Wie widerstandsfähig ist dieses Modell gegen mehrstufige, sich anpassende Angriffe?“ .
Setzen Sie auf kontextbewusste Schutzmechanismen und Echtzeit-Überwachung. Die statische Sicherheit eines Modells allein genügt nicht. Unternehmen benötigen Systeme, die in Echtzeit auffällige Gesprächsmuster und Grenzüberschreitungen erkennen und darauf reagieren können .
Führen Sie regelmäßig 'Red-Teaming'-Übungen durch. Simulieren Sie dabei gezielt iterative, längere Angriffsgespräche und nicht nur einmalige Jailbreak-Versuche .
Trainieren Sie Modelle gezielt gegen Angriffe. Setzen Sie auf adversariales Training, das speziell darauf ausgelegt ist, die Sicherheit über mehrere Dialogschritte hinweg aufrechtzuerhalten .
Setzen Sie auf ein mehrschichtiges Verteidigungssystem. Eine einzelne Sicherheitsmaßnahme reicht nicht aus. Kombinieren Sie Modell-Alignment, Filter für Ein- und Ausgaben, Verhaltensüberwachung und menschliche Letztkontrolle .
Verstehen Sie die Sicherheitsphilosophie des Anbieters. Die Studie zeigte, dass Modelle von Entwicklern mit starkem Sicherheitsfokus (z. B. Googles Gemma-Familie) tendenziell geringere Unterschiede zwischen Einfach- und Mehrstufenangriffen aufwiesen. Funktionsgetriebene Modelle (wie Metas Llama oder xAIs Grok) zeigten größere Schwächen. Dieses Wissen sollte in die Modellauswahl einfließen .
Nutzen Sie strukturierte Analysewerkzeuge. Ciscos eigene Plattform zur KI-Validierung (jetzt Teil der LLM-Sicherheits-Bestenliste, 'LLM Security Leaderboard') kann genutzt werden, um vergleichbare und reproduzierbare mehrstufige Risikobewertungen zu erstellen .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Cisco-Studie: Warum kein KI-Modell sicher ist – und wie sich die Schutzmechanismen austricksen lassen“?

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Das Modell Grok 4.1 Fast von xAI erwies sich als das anfälligste. Die Erfolgsquote mehrstufiger Angriffe lag hier bei 88,3 %, über alle Modelle hinweg zwischen 7,9 % und 88,3 %.

Quellen

← Back to Trending