Die Erfolgsquoten mehrstufiger Angriffe (Attack Success Rate, ASR) variierten bei den getesteten geschlossenen Modellen erheblich – von 7,89 % bis hin zu dramatischen 88,30 %. Zum Vergleich: Bei einem einzelnen Angriffsversuch lagen die Quoten für dieselben Modelle nur zwischen 2,19 % und 64,91 % .
In der früheren Studie zu quelloffenen Modellen waren die Ergebnisse noch alarmierender. Gegen das Modell Mistral Large-2 lag die mehrstufige ASR bei 92,78 %. Über alle acht getesteten Modelle hinweg waren mehrstufige Angriffe zwei- bis zehnmal erfolgreicher als einfache Angriffe .
Cisco identifizierte und testete fünf verschiedene Vorgehensweisen, mit denen Angreifer versuchen, die Sicherheitsmechanismen von KI-Modellen zu umgehen :
Die Anfälligkeit variierte stark je nach Strategie, was zeigt, dass keine pauschale Sicherheit vorliegt, sondern die Verwundbarkeit vom gewählten Angriffsmuster abhängt .
Unternehmen, die große Sprachmodelle (Large Language Models, LLMs) einsetzen wollen, müssen ihre Sicherheitsstrategie grundlegend überdenken. Cisco rät zu folgenden Maßnahmen:
Comments
0 comments