Statt isolierte Bugs zu betrachten, modellierte die KI also, wie ein Angreifer mehrere Schwächen kombinieren könnte, um ein System tatsächlich zu kompromittieren. Dieses Verhalten zeigte sich in verschiedenen Teilen der Cloudflare‑Infrastruktur, darunter Laufzeitsysteme, Protokoll‑Code, Control‑Plane‑Komponenten und Open‑Source‑Projekte.
Eine weitere bemerkenswerte Fähigkeit war die automatische Generierung von Proof‑of‑Concept‑Exploits (PoC).
Laut Cloudflare konnte Mythos:
Durch diesen iterativen Prozess konnte das Modell von der reinen Schwachstellen‑Erkennung zur praktischen Bestätigung eines funktionierenden Exploits gelangen – und das mit nur minimaler menschlicher Unterstützung.
Für Sicherheits‑Teams ist genau dieser Schritt oft entscheidend: Erst ein funktionierender PoC zeigt, ob ein Bug wirklich kritisch ist.
Auch Anthropic selbst beschreibt in der Dokumentation zu Mythos Preview ähnliche Fähigkeiten aus internen Tests. Dazu gehören unter anderem:
Diese Fähigkeiten zeigen, dass das Modell speziell auf strukturierte Sicherheitsanalyse und Exploit‑Logik trainiert wurde – nicht nur auf allgemeine Programmierung.
Trotz der beeindruckenden Ergebnisse zeigte das Experiment auch deutliche Grenzen.
Das Modell meldete teilweise Schwachstellen, die sich in der Praxis nicht ausnutzen ließen oder falsch klassifiziert waren. Besonders Code in speicherunsicheren Sprachen wie C oder C++ erzeugte häufiger solche Fehlmeldungen, weshalb menschliche Überprüfung weiterhin notwendig bleibt.
Cloudflare stellte außerdem fest, dass das Modell uneinheitlich auf riskante Aufgaben reagierte.
In manchen Fällen erkannte Mythos zwar einen Exploit‑Pfad, verweigerte aber anschließend aufgrund interner Sicherheitsregeln die vollständige Demonstration. In anderen Situationen arbeitete es weiter, bevor es stoppte.
Diese Inkonsistenzen zeigen, wie schwierig es ist, leistungsfähige Sicherheits‑KI zu entwickeln, die gleichzeitig nützlich für Forscher und sicher gegenüber Missbrauch bleibt.
Die Ergebnisse deuten auf einen möglichen Wandel in der Schwachstellenforschung hin.
Für Verteidiger könnten solche Modelle:
Gleichzeitig entsteht jedoch ein Risiko: Wenn KI automatisch den Weg von Bug‑Fund zu funktionierendem Exploit überbrücken kann, könnte die technische Einstiegshürde für Angriffe deutlich sinken.
Cloudflare zieht daraus eine klare Schlussfolgerung: Nur schneller zu patchen reicht möglicherweise nicht mehr aus. Sicherheitsstrategien müssen davon ausgehen, dass Angreifer künftig ähnliche automatisierte Werkzeuge einsetzen können.
Claude Mythos Preview zeigt ein typisches Muster moderner Technologie: Dieselbe Fähigkeit kann schützen oder angreifen.
Aus diesem Grund ist das Modell derzeit nicht öffentlich verfügbar. Stattdessen wird es nur ausgewählten Organisationen im Rahmen von Project Glasswing für defensive Tests bereitgestellt.
Die Cloudflare‑Tests machen deutlich, wohin sich KI entwickelt: weg von einfachen Programmierhilfen hin zu Systemen, die komplexe Sicherheitslücken entdecken, analysieren und praktisch ausnutzen können. Diese Entwicklung könnte sowohl die Cyberabwehr als auch Cyberangriffe in den kommenden Jahren grundlegend verändern.
Comments
0 comments