Der sichtbarste Vorteil von Mythos liegt bei Langstreckenaufgaben: Schwachstellen finden, ausnutzen, Reverse Engineering betreiben und simulierte Angriffe durchführen, bei denen Planung, Tool-Nutzung und mehrere aufeinanderfolgende Schritte nötig sind. Das AI Security Institute verweist unter anderem auf Capture-the-Flag-Aufgaben – also kontrollierte Sicherheitsrätsel – und mehrstufige Angriffssimulationen. Es ordnet Mythos zugleich in einen breiteren Trend ein: KI-Modelle werden in Cyberaufgaben schnell besser .
Anthropics eigener Red-Team-Bericht geht noch weiter. Darin heißt es, Mythos schneide über Cybersecurity-Aufgaben hinweg stark ab; beschrieben werden unter anderem Zero-Day-Funde in realen Open-Source-Codebasen, Reverse Engineering von Exploits für Closed-Source-Software und die Umwandlung von N-Day-Schwachstellen – also bekannten, aber noch nicht breit gepatchten Lücken – in funktionierende Exploits .
Wichtig ist allerdings: Anthropic selbst schreibt, dass öffentliche Details begrenzt bleiben, weil mehr als 99 % der gefundenen Schwachstellen noch nicht gepatcht seien. Außenstehende können die meisten Beispiele deshalb nicht unabhängig prüfen .
Das Gegenargument lautet nicht, dass kleine Open-Weight-Modelle Mythos als autonome Cyber-Agenten vollständig einholen. Der Punkt ist subtiler: Cyberfähigkeit ist ungleichmäßig. Ein Modell kann in manchen Aufgaben schwach sein und in einem eng umrissenen Schwachstellenfall trotzdem überraschend gute Arbeit leisten.
Genau darauf zielt Aisles Test. Sobald der relevante Code isoliert und die Aufgabe klar begrenzt war, konnten kleine, günstige Open-Weight-Modelle bei ausgewählten Mythos-Beispielen viel von derselben Analyse rekonstruieren .
Auch Tom’s Hardware fasste die Debatte nach der Mythos-Ankündigung ähnlich zusammen: Mythos könnte zu den stärksten KI-Modellen für Cybersecurity insgesamt gehören, doch günstigere Modelle können bei manchen Aufgaben rund um Exploit-Findung und Patching ähnliche Ergebnisse erreichen; offen bleiben dabei Zuverlässigkeit und Verfügbarkeit .
Diese Unterscheidung ist entscheidend. Einen isolierten Codebefund nachzuvollziehen ist nicht dasselbe wie selbstständig ein Netzwerk zu erkunden, mehrere Schritte zu planen, eine Lücke auszunutzen und eine Angriffssimulation abzuschließen. Für solche längeren, agentischen Workflows sprechen die öffentlichen Belege am deutlichsten für Mythos .
Die überzeugendste Erklärung ist nicht: „Das Modell allein ist magisch.“ Näher liegt: Modell plus Cybersecurity-spezifisches Umfeld. Dazu gehören Tools, Ausführungsumgebung, Netzwerkzugriff, Kontextauswahl, Prompting, Agentenlogik und fachkundige Prüfung.
Aisle formuliert es ausdrücklich so: Der Burggraben liege im „System“, in das tiefe Sicherheitskompetenz eingebaut sei – nicht allein im Modell . Auch die Bewertung des AI Security Institute stützt diese Sicht, weil Mythos seine stärksten beobachteten Leistungen in kontrollierten Bedingungen zeigte, in denen es angeleitet wurde und Netzwerkzugriff bekam
.
Zugriff ist ebenfalls Teil der Geschichte. Bain beschreibt Claude Mythos Preview als Frontier-Modell mit so ernsten Cybersecurity-Fähigkeiten, dass Anthropic die Veröffentlichung auf ein geprüftes Partnerprogramm namens Project Glasswing beschränkt habe . Für Unternehmen ist die praktische Frage daher nicht nur: Welche öffentliche API ist billiger? Sondern: Wie viel desselben Workflows lässt sich mit verfügbaren Modellen, Werkzeugen und Expertise nachbauen
?
Was fehlt, ist ein sauberer öffentlicher Preis-Leistungs-Vergleich zwischen Mythos, günstigen APIs und Open-Weight-Modellen unter identischen Bedingungen. Das AI Security Institute testete Mythos in kontrollierten Szenarien und verglich die Leistung mit dem Fortschritt früherer Frontier-Modelle . Anthropic liefert detaillierte, aber vom Entwickler selbst veröffentlichte Red-Team-Evidenz
. Aisle wiederum bietet einen engeren Gegentest anhand ausgewählter Showcase-Schwachstellen
.
Diese Quellen beantworten verwandte, aber nicht dieselbe Frage. Ein wirklich fairer Vergleich müsste Tool-Zugriff, Codekontext, Netzwerkrechte, Anzahl der Versuche, Rechenbudget, Regeln zur Exploit-Ausführung und menschliche Kontrolle konstant halten. Ohne so einen Test bleiben starke Behauptungen in beide Richtungen verfrüht .
Claude Mythos sieht dort außergewöhnlich stark aus, wo Autonomie und mehrstufige Ausführung zählen. Öffentlich belegt ist aber nicht, dass die zugrunde liegende Cybersecurity-Analyse grundsätzlich nur Mythos vorbehalten ist. Die vorsichtigere Schlussfolgerung lautet: Mythos hat einen realen Vorsprung bei komplexen Cyber-Workflows, während günstigere Modelle überraschend große Teile begrenzter Analysen übernehmen können – sofern sie mit guten Tools, sauberem Kontext und fachkundiger Aufsicht kombiniert werden .
Comments
0 comments