Wer nach dem Benchmark von Claude Mythos Preview sucht, stößt meist auf eine Zahl: 93,9 % in SWE-bench. Das ist der zentrale gemeldete Wert für Software-Aufgaben – aber keine allgemeine Schulnote für das gesamte Modell. SWE-bench bewertet Code-Aufgaben und ist vor allem für Vergleiche rund um Programmieren, Bugfixing und Coding-Agenten relevant [1][
2].
Die Zahl, um die es geht: 93,9 % in SWE-bench
Für Claude Mythos Preview wird ein Ergebnis von 93,9 % in SWE-bench berichtet [1][
2]. Wer ein Modell für Arbeit an Repositories, Testläufe, Fehlerkorrekturen oder automatisierte Entwickler-Workflows einschätzen will, bekommt damit einen wichtigen Anhaltspunkt [
1].
Entscheidend ist der Rahmen: Hohe SWE-bench-Werte entstehen häufig in einem Agenten-Setup. Das Modell kann dabei Dateien lesen, Code ausführen, Testergebnisse prüfen und mehrere Versuche iterieren [1]. Der Wert spiegelt also nicht nur die Modellfähigkeit im engeren Sinn wider, sondern auch das Zusammenspiel mit Werkzeugen und Evaluationsumgebung.
Was der Wert nicht sagt
Die 93,9 % sind keine Gesamtwertung für Claude Mythos Preview. Ein Software-Benchmark misst für sich genommen weder allgemeines Reasoning, Sicherheit, Verfügbarkeit, Betriebskosten noch Leistung in Aufgaben, die wenig mit Schreiben, Prüfen oder Ändern von Code zu tun haben [1].
Für faire Vergleiche gilt deshalb: Modelle sollten innerhalb desselben Benchmarks und unter vergleichbaren Bedingungen bewertet werden. Ein Modell, das Dateien lesen, Code ausführen und iterieren darf, lässt sich nur eingeschränkt mit einem Modell vergleichen, das ohne diese Werkzeuge getestet wurde [1].
Die gemeldeten Benchmarks im Überblick
| Bereich | Gemeldetes Ergebnis | Sinnvolle Lesart |
|---|---|---|
| Software / SWE-bench | 93,9 % | Die klarste Zahl für Programmieraufgaben und Code-Agenten [ |
| Cybersecurity | 83,1 % gegenüber 66,6 % bei Claude Opus 4.6 | Vergleich in Benchmarks zu Cybersecurity-Fähigkeiten; nicht dasselbe wie SWE-bench [ |
| Cybench | 100 % | Sekundärbericht zu Cybersecurity-Challenges, keine allgemeine Modellbewertung [ |
| Breiter Benchmark-Satz | Führt in 17 von 18 gemessenen Benchmarks | Aggregierte Aussage eines Berichts zu Anthropic-Daten; vor einem Gesamtranking sollte man den Einzelaufschlüsselungen nachgehen [ |
Software und Cybersecurity getrennt lesen
Die Cybersecurity-Metriken von Claude Mythos Preview gehören in eine andere Schublade. Ein Bericht nennt 83,1 % für Mythos Preview gegenüber 66,6 % für Claude Opus 4.6 in Benchmarks zu Cybersecurity-Fähigkeiten [3]. Ein anderer berichtet 100 % in Cybench, beschrieben als Benchmark für Cybersecurity-Herausforderungen [
5].
Auch die genannten Anthropic-Quellen setzen dort ihren Schwerpunkt: Das Anthropic Red Team veröffentlichte eine Bewertung der Cybersecurity-Fähigkeiten von Claude Mythos Preview, und Project Glasswing umfasst Arbeiten zur Identifikation von Schwachstellen und Exploits mit dem Modell [13][
24]. Für Sicherheitsteams kann das sehr relevant sein. Mit SWE-bench sollte man diese Werte aber nicht zu einer einzigen Gesamtpunktzahl vermischen.
So lässt sich die Zahl praktisch nutzen
Wer einen Agenten bewerten will, der Repositories durchsucht, Code ändert, Tests ausführt und Rückmeldungen verarbeitet, sollte den 93,9 % in SWE-bench besondere Aufmerksamkeit schenken [1][
2]. Wer dagegen Sicherheitsanalysen, Vulnerability-Research oder Exploit-Prüfungen im Blick hat, sollte die Cybersecurity-Benchmarks und die Anthropic-Unterlagen gesondert heranziehen [
3][
5][
13][
24].
Die Kurzantwort lautet: Claude Mythos Preview wird mit 93,9 % in SWE-bench berichtet [1][
2]. Die genaue Lesart ist enger: Das ist ein starkes Signal für Software-Aufgaben unter bestimmten Evaluationsbedingungen – aber kein automatischer Beleg für allgemeine Überlegenheit in jedem Bereich.




