Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Claude Mythos ist bei autonomen, mehrstufigen Cyber Workflows offenbar deutlich voraus – unter anderem bei Angriffssimulationen, Schwachstellensuche und Exploit Ketten. Ein einzigartiger „Moat“ ist öffentlich nicht belegt: Aisle berichtet, dass kleine, günstige Open Weight Modelle ausgewählte Mythos Beispielanalysen teilweise nachvollziehen konnten.

Was soll ich als nächstes in der Praxis tun?

Entscheidend ist nicht nur das Modell, sondern das Gesamtsystem aus Tools, Kontext, Zugriffen, Agenten Setup und menschlicher Sicherheitskompetenz.

Claude Mythos hat einen Cybersecurity-Vorsprung – aber keinen bewiesenen Burggraben | Antwort

studioglobal

Claude Mythos Preview verdient Aufmerksamkeit – aber die sauberste Lesart der bisher öffentlichen Belege ist nüchterner als manche Schlagzeile. Das Modell scheint bei autonomen, mehrstufigen Cybersecurity-Aufgaben vorn zu liegen. Daraus folgt jedoch nicht automatisch, dass nur Mythos solche Sicherheitsanalysen leisten kann.

Der Unterschied liegt eher hier: Mythos wirkt stark, wenn ein System selbst planen, Tools nutzen, Netzwerke erkunden und mehrere Schritte zu einem Angriff oder Test verketten muss. Günstigere oder öffentlich verfügbare Open-Weight-Modelle – also Modelle, deren Gewichte zugänglich sind – können dagegen Teile der Analyse reproduzieren, wenn der Codeausschnitt und die Aufgabe eng vorbereitet sind .

Das Urteil: echter Vorsprung, aber kein bewiesener Alleingang

Wenn „einzigartig“ bedeutet, bei schwierigen End-to-End-Cyber-Workflows deutlich vor anderen Systemen zu liegen, hat Mythos ein starkes Argument. Das britische AI Security Institute, eine staatliche Einrichtung zur Bewertung von KI-Risiken, bezeichnete Mythos Preview als „step up“ gegenüber früheren Frontier-Modellen. In kontrollierten Tests, in denen Mythos ausdrücklich angeleitet wurde und Netzwerkzugriff erhielt, beobachtete das Institut mehrstufige Angriffe auf verwundbare Netzwerke sowie autonome Schwachstellensuche und -ausnutzung .

Wenn „einzigartig“ dagegen heißen soll, dass günstigere öffentliche Modelle grundsätzlich keine vergleichbare Cybersecurity-Logik beherrschen, ist die Beweislage schwächer. Aisle isolierte von Anthropic hervorgehobene Schwachstellenfälle und ließ sie durch kleine, günstige Open-Weight-Modelle laufen. Das Ergebnis: Diese Modelle konnten einen großen Teil derselben Analyse wiederfinden .

Wo Mythos wirklich stark wirkt

Der sichtbarste Vorteil von Mythos liegt bei Langstreckenaufgaben: Schwachstellen finden, ausnutzen, Reverse Engineering betreiben und simulierte Angriffe durchführen, bei denen Planung, Tool-Nutzung und mehrere aufeinanderfolgende Schritte nötig sind. Das AI Security Institute verweist unter anderem auf Capture-the-Flag-Aufgaben – also kontrollierte Sicherheitsrätsel – und mehrstufige Angriffssimulationen. Es ordnet Mythos zugleich in einen breiteren Trend ein: KI-Modelle werden in Cyberaufgaben schnell besser .

Anthropics eigener Red-Team-Bericht geht noch weiter. Darin heißt es, Mythos schneide über Cybersecurity-Aufgaben hinweg stark ab; beschrieben werden unter anderem Zero-Day-Funde in realen Open-Source-Codebasen, Reverse Engineering von Exploits für Closed-Source-Software und die Umwandlung von N-Day-Schwachstellen – also bekannten, aber noch nicht breit gepatchten Lücken – in funktionierende Exploits .

Wichtig ist allerdings: Anthropic selbst schreibt, dass öffentliche Details begrenzt bleiben, weil mehr als 99 % der gefundenen Schwachstellen noch nicht gepatcht seien. Außenstehende können die meisten Beispiele deshalb nicht unabhängig prüfen .

Warum günstigere Modelle die Burggraben-These trotzdem stören

Das Gegenargument lautet nicht, dass kleine Open-Weight-Modelle Mythos als autonome Cyber-Agenten vollständig einholen. Der Punkt ist subtiler: Cyberfähigkeit ist ungleichmäßig. Ein Modell kann in manchen Aufgaben schwach sein und in einem eng umrissenen Schwachstellenfall trotzdem überraschend gute Arbeit leisten.

Genau darauf zielt Aisles Test. Sobald der relevante Code isoliert und die Aufgabe klar begrenzt war, konnten kleine, günstige Open-Weight-Modelle bei ausgewählten Mythos-Beispielen viel von derselben Analyse rekonstruieren .

Auch Tom’s Hardware fasste die Debatte nach der Mythos-Ankündigung ähnlich zusammen: Mythos könnte zu den stärksten KI-Modellen für Cybersecurity insgesamt gehören, doch günstigere Modelle können bei manchen Aufgaben rund um Exploit-Findung und Patching ähnliche Ergebnisse erreichen; offen bleiben dabei Zuverlässigkeit und Verfügbarkeit .

Diese Unterscheidung ist entscheidend. Einen isolierten Codebefund nachzuvollziehen ist nicht dasselbe wie selbstständig ein Netzwerk zu erkunden, mehrere Schritte zu planen, eine Lücke auszunutzen und eine Angriffssimulation abzuschließen. Für solche längeren, agentischen Workflows sprechen die öffentlichen Belege am deutlichsten für Mythos .

Der eigentliche Unterschied könnte im System liegen

Die überzeugendste Erklärung ist nicht: „Das Modell allein ist magisch.“ Näher liegt: Modell plus Cybersecurity-spezifisches Umfeld. Dazu gehören Tools, Ausführungsumgebung, Netzwerkzugriff, Kontextauswahl, Prompting, Agentenlogik und fachkundige Prüfung.

Aisle formuliert es ausdrücklich so: Der Burggraben liege im „System“, in das tiefe Sicherheitskompetenz eingebaut sei – nicht allein im Modell . Auch die Bewertung des AI Security Institute stützt diese Sicht, weil Mythos seine stärksten beobachteten Leistungen in kontrollierten Bedingungen zeigte, in denen es angeleitet wurde und Netzwerkzugriff bekam .

Zugriff ist ebenfalls Teil der Geschichte. Bain beschreibt Claude Mythos Preview als Frontier-Modell mit so ernsten Cybersecurity-Fähigkeiten, dass Anthropic die Veröffentlichung auf ein geprüftes Partnerprogramm namens Project Glasswing beschränkt habe . Für Unternehmen ist die praktische Frage daher nicht nur: Welche öffentliche API ist billiger? Sondern: Wie viel desselben Workflows lässt sich mit verfügbaren Modellen, Werkzeugen und Expertise nachbauen ?

Was die Belege noch nicht beantworten

Was fehlt, ist ein sauberer öffentlicher Preis-Leistungs-Vergleich zwischen Mythos, günstigen APIs und Open-Weight-Modellen unter identischen Bedingungen. Das AI Security Institute testete Mythos in kontrollierten Szenarien und verglich die Leistung mit dem Fortschritt früherer Frontier-Modelle . Anthropic liefert detaillierte, aber vom Entwickler selbst veröffentlichte Red-Team-Evidenz . Aisle wiederum bietet einen engeren Gegentest anhand ausgewählter Showcase-Schwachstellen .

Diese Quellen beantworten verwandte, aber nicht dieselbe Frage. Ein wirklich fairer Vergleich müsste Tool-Zugriff, Codekontext, Netzwerkrechte, Anzahl der Versuche, Rechenbudget, Regeln zur Exploit-Ausführung und menschliche Kontrolle konstant halten. Ohne so einen Test bleiben starke Behauptungen in beide Richtungen verfrüht .

So lässt sich der Vergleich praktisch lesen

Einsatzfall	Plausible Lesart der Belege
Autonome Red-Team-Workflows	Mythos-Klasse-Systeme wirken deutlich voraus, besonders wenn ein Modell mit Tools und Netzwerkzugriff mehrere Schritte planen und ausführen muss .
Begrenzte Schwachstellen-Triage an vorbereitetem Code	Günstigere oder Open-Weight-Modelle können nützlich sein, wenn der relevante Code bereitgestellt und der Ablauf eng begrenzt ist .
KI-Risikoplanung in Unternehmen	Mythos sollte nicht als einmalige Anomalie gelten. Bain argumentiert, Mythos sei ernst zu nehmen, aber andere Frontier-Systeme hätten bereits teilweise vergleichbare Fähigkeiten oder dürften nachziehen .
Modellbewertung	Verglichen werden sollten komplette Systeme, nicht nur Modellnamen. Tool-Zugriff, Agenten-Setup, Kontext und menschliche Expertise können Ergebnisse stark verändern .

Fazit

Claude Mythos sieht dort außergewöhnlich stark aus, wo Autonomie und mehrstufige Ausführung zählen. Öffentlich belegt ist aber nicht, dass die zugrunde liegende Cybersecurity-Analyse grundsätzlich nur Mythos vorbehalten ist. Die vorsichtigere Schlussfolgerung lautet: Mythos hat einen realen Vorsprung bei komplexen Cyber-Workflows, während günstigere Modelle überraschend große Teile begrenzter Analysen übernehmen können – sofern sie mit guten Tools, sauberem Kontext und fachkundiger Aufsicht kombiniert werden .

Claude Mythos hat einen Cybersecurity-Vorsprung – aber keinen bewiesenen Burggraben