Auch interne Red‑Team‑Berichte von Anthropic nennen Fähigkeiten wie:
Solche Angaben stammen zwar vom Hersteller selbst und sollten daher vorsichtig bewertet werden, doch unabhängige Tests bestätigen grundsätzlich, dass moderne KI‑Modelle immer besser darin werden, komplexe Schwachstellen zu entdecken und Angriffspfade zu analysieren.
Trotz beeindruckender Ergebnisse bedeutet das nicht, dass Mythos einen Sicherheitsexperten ersetzen kann.
Die AISI‑Tests umfassen nur eine begrenzte Auswahl von Cyber‑Aufgaben, keine vollständige Simulation realer Sicherheitsarbeit.
In der Praxis bleiben mehrere entscheidende Aufgaben weiterhin menschliche Domäne:
Ohne diese Schritte kann eine KI zwar viele potenzielle Fehler finden, doch Sicherheitsteams müssen anschließend jede einzelne Meldung überprüfen – ein Prozess, der schnell zu Überlastung durch Fehlalarme führen kann.
Hinzu kommt: Reale IT‑Systeme sind chaotischer als Testumgebungen. Logdaten sind unvollständig, Dokumentation fehlt, Zugriffe sind eingeschränkt, und Software‑Komponenten beeinflussen sich gegenseitig. Solche Faktoren lassen sich nur schwer vollständig in Labortests abbilden.
Eine weitere wichtige Erkenntnis aus den Tests: Mythos steht nicht allein an der Spitze.
Das AI Security Institute untersuchte auch OpenAIs Modell GPT‑5.5 und stellte fest, dass es auf ähnlichem Niveau bei Cyber‑Aufgaben liegt.
Berichten zufolge erreichte GPT‑5.5 etwa 71,4 % Erfolgsrate bei den schwierigsten „Expert“-Tests, während Mythos bei 68,6 % lag. Beide Modelle konnten außerdem die 32‑stufige Simulation eines Unternehmensnetzwerks erfolgreich abschließen – Mythos in 3 von 10 Versuchen, GPT‑5.5 in 2 von 10.
Diese Zahlen deuten darauf hin, dass mehrere sogenannte Frontier‑Modelle inzwischen vergleichbare Fähigkeiten besitzen. In der Praxis könnten Unterschiede daher weniger von der reinen Modellleistung abhängen als von Faktoren wie:
Viele spektakuläre Schlagzeilen über KI‑Hacking basieren auf kuratieren Testumgebungen.
Solche Benchmarks sind nützlich, um Fortschritte zu messen – sie spiegeln aber nicht unbedingt die Realität wider. Häufig enthalten sie:
In solchen Szenarien können Modelle gut abschneiden, die strukturiert analysieren und bekannte Muster erkennen. Schwieriger zu messen sind hingegen Faktoren wie fehlender Kontext, operative Einschränkungen oder hohe Fehlalarmraten.
Einige Forscher sprechen deshalb von einer „gezackten“ Entwicklung von KI‑Cyberfähigkeiten: Fortschritte entstehen nicht immer linear mit größeren Modellen. Manchmal erreichen kleinere Systeme oder spezialisierte Agenten ähnliche Ergebnisse in engen Aufgabenbereichen.
Deshalb sehen viele Experten Benchmark‑Erfolge eher als Hinweis auf Potenzial – nicht als Beweis für zuverlässige Autonomie.
Trotz aller Unsicherheiten versuchen Institutionen weltweit, Zugriff auf solche Systeme zu erhalten.
Besonders interessiert ist der Finanzsektor. Berichten zufolge sollen Japans drei größte Banken – Mitsubishi UFJ Financial Group, Mizuho Financial Group und Sumitomo Mitsui Financial Group – Zugang zu Mythos erhalten, um ihre Systeme gegen neue KI‑gestützte Cyberbedrohungen zu testen.
Parallel dazu diskutieren japanische Behörden die Risiken der Technologie mit Banken und prüfen mögliche Auswirkungen auf die Stabilität der Finanzinfrastruktur.
Auch europäische Institutionen und globale Banken suchen Zugang zu ähnlichen Modellen, weil sie Schwachstellen entdecken wollen, bevor Angreifer sie ausnutzen.
Der Hintergrund: Fortschrittliche KI kann die Kosten und Geschwindigkeit von Cyberoperationen drastisch verändern. Laut dem britischen National Cyber Security Centre zeigen moderne Systeme bereits Fähigkeiten bei Aufgaben wie der Identifikation von Zero‑Day‑Lücken oder dem Lösen kryptografischer Herausforderungen.
Ein Grund für die Nervosität ist das Tempo der Entwicklung.
Das AI Security Institute berichtet, dass sich die Länge der Cyber‑Aufgaben, die KI‑Modelle autonom bewältigen können, alle paar Monate verdoppelt hat.
Das führt zu einer Art digitalem Wettrüsten:
Die nüchternste Interpretation der aktuellen Daten ist relativ klar: Mythos ist ein sehr leistungsfähiges Werkzeug zur Schwachstellensuche – aber kein autonomer Cyberverteidiger.
Unabhängige Tests zeigen, dass moderne KI‑Modelle inzwischen komplexe Cyberaufgaben miteinander verknüpfen und gelegentlich vollständige Angriffssimulationen durchführen können. Gleichzeitig bleiben zentrale Aufgaben wie Risiko‑Bewertung, Exploit‑Bestätigung und operative Entscheidungen weiterhin stark von menschlicher Expertise abhängig.
Ebenso wichtig: Mythos ist wahrscheinlich nicht allein an der Spitze. Andere Frontier‑Modelle erreichen in einigen Tests ähnliche Ergebnisse.
Für Regierungen, Banken und Betreiber kritischer Infrastruktur ergibt sich daraus eine klare Schlussfolgerung: Der Wettlauf um KI‑gestützte Cybersicherheit hat bereits begonnen – und wer zu spät einsteigt, könnte Schwachstellen erst entdecken, nachdem Angreifer sie gefunden haben.
Comments
0 comments