Selbst harmloses Fine-Tuning kann die Sicherheitsarchitektur zerstören. Eine Studie zeigte, dass schon das Beimischen kleiner Mengen unsicherer Daten zu harmlosen Fine-Tuning-Datensätzen die Schutzmechanismen signifikant schwächt . Eine weitere Arbeit bestätigte, dass sowohl Fine-Tuning von Open-Weight-Modellen als auch über geschlossene APIs zu Modellen führen kann, deren Schutzmechanismen vollständig entfernt wurden
.
Mehrere kürzlich dokumentierte Techniken zeigen, wie trivial Jailbreaking geworden ist.
Sockpuppeting schleust ein gefälschtes "Einverständnis" in die vorausgefüllte Antwort des Assistenten ein und nutzt so die Tendenz des Modells zur Selbstkonsistenz aus. Die Methode benötigt keine Optimierung, keine Modellgewichte und keine speziellen Werkzeuge – nur einen API-Zugang, der das Vorausfüllen von Assistenten-Antworten unterstützt. Bei Tests im April 2026 war jedes Modell, das die Vorausfüllung akzeptierte, zumindest teilweise verwundbar, darunter GPT-4o, Claude 4 Sonnet und Gemini 2.5 Flash .
Papierbasierte Angriffe stellen eine alarmierende Meta-Schwachstelle dar. Eine Studie aus dem Jahr 2026 ergab, dass die Verwendung von Inhalten aus publizierten wissenschaftlichen Arbeiten zur LLM-Sicherheit als Prompts eine Angriffserfolgsrate von 97–98 % bei gut geschützten Modellen erreicht – inklusive geschlossener Systeme wie Claude 3.5 Sonnet .
Safety Steering Amplification zeigt, wie Techniken zur Sicherheitsverbesserung nach hinten losgehen können. Sogenanntes "Activation Steering" zur Inferenzzeit, das übermäßige Verweigerungshaltung bei harmlosen Anfragen reduzieren soll, verstärkte unbeabsichtigt die Jailbreak-Anfälligkeit bei Modellen wie Llama 3.1 8B und Gemma 2 2B .
Unterwanderung von Reasoning-Guardrails gehört zu den besorgniserregendsten neuen Angriffsvektoren. Eine Studie vom März 2026 entdeckte, dass das Hinzufügen von nur wenigen Template-Tokens zu einer Eingabeaufforderung die auf logischem Denken basierenden Sicherheitsmechanismen kapern kann. Einmal kompromittiert, produzieren diese Reasoning-Systeme sogar noch schädlichere Ergebnisse als Modelle ohne solche Schutzmechanismen .
Die Regeln des EU AI Act für allgemeine KI-Modelle (General-Purpose AI, GPAI) sind im August 2025 in Kraft getreten . Jedes Modell, das mit mehr als 10²⁵ Gleitkommaoperationen (FLOPs) trainiert wurde – eine Schwelle, die Llama 4.2 Ultra und jedes große kommerzielle Modell erfasst –, wird als systemisches Risiko eingestuft
.
Für Unternehmen hat das sofortige Konsequenzen:
Es gibt Ausnahmen für Open-Source, aber sie haben klare Grenzen. Modelle, die unter einer freien und quelloffenen Lizenz ohne Monetarisierung veröffentlicht werden, fallen weitgehend aus den strengsten Verpflichtungen heraus , aber diese Ausnahme entfällt sofort, wenn das Modell ein systemisches Risiko darstellt
. Die Überarbeitung des AI Act durch die EU im Mai 2026 hat diese Grenze noch einmal bekräftigt
. Bei Metas Llama-Community-Lizenz wurde bereits festgestellt, dass sie nicht für die Open-Source-Ausnahmeregelung qualifiziert
.
Die Durchsetzung ist in vollem Gange und keine Theorie mehr. Anfang 2026 leitete die EU hochkarätige Untersuchungen zu systemischen Risiken gegen große Plattformen, einschließlich Meta, ein und forderte eine beispiellose Transparenz bei Trainingsdaten und Sicherheitsleitplanken .
Die Beweise für die Verwundbarkeit heizen den Marktdruck für stärkere Sicherheitsnachrüstungen an. Eine Studie aus dem Jahr 2025 zeigte, dass ein Training mit nur 2.000 Sicherheitsbeispielen – Kostenpunkt etwa 3 Dollar für 8B-Modelle und 20 Dollar für 72B-Modelle – die Angriffserfolgsraten um 10–30 % senken kann. Die erfolgreichsten Angriffsmethoden wurden nach der Nachrüstung auf rund 5 % Erfolgsquote reduziert .
Die wirtschaftlichen Rahmenbedingungen legen nahe, dass kostengünstige Nachrüstungen machbar sind, doch sie haben sich im Open-Weight-Ökosystem noch nicht als Standardpraxis etabliert. Da der regulatorische Druck steigt und die Angriffslandschaft sich zuspitzt, werden Unternehmen, die diese Modelle produktiv einsetzen, die 20-Dollar-Versicherungspolice wohl zunehmend besser nicht ausschlagen wollen.
Comments
0 comments