| SWE-bench Verified |
| 93,9 % |
| W&B nennt für Claude Opus 4.6 einen Vergleichswert von 80,8 %. |
| Mehrsprachiges Coding | SWE-bench Multilingual | 87,3 % | W&B nennt 77,8 % für Claude Opus 4.6. |
| Multimodal | Interne multimodale Evaluation | 59,0 % | W&B beschreibt den Wert als interne Evaluation und nennt 27,1 % für Claude Opus 4.6. |
| Cybersecurity | Cybench | pass@1 = 1,00 | Authmind beschreibt Cybench als öffentlichen Benchmark mit 40 CTF-Challenges und nennt 0,89 für Claude Opus 4.6. |
| Cybersecurity | CyberGym | 0,83 | Authmind beschreibt CyberGym als Evaluation zur gezielten Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben und nennt 0,67 für Claude Opus 4.6. |
| Reasoning | GPQA Diamond | 94,6 % | llm-stats nennt 91,3 % für Claude Opus 4.6. |
| Reasoning | Humanity’s Last Exam, ohne / mit Tools | 56,8 % / 64,7 % | llm-stats nennt 40,0 % ohne Tools und 53,1 % mit Tools für Claude Opus 4.6. |
Am klarsten offiziell belegt ist der Status des Modells: Claude Mythos Preview ist laut Anthropic ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows in Project Glasswing, mit Einladungspflicht und ohne Self-Serve-Zugang.
Anthropics Project-Glasswing-Seite beschreibt Claude Mythos Preview außerdem als allgemeines Frontier-Modell und als Anthropic-Modell mit besonderer Stärke bei Coding und agentischen Aufgaben. Dort erklärt Anthropic auch, dass die Cybersecurity-Stärke aus der breiteren Fähigkeit folge, komplexe Software tief zu verstehen, zu verändern und damit auch Schwachstellen zu finden und zu beheben.
Die bereitgestellte System-Card-Quelle beschreibt Claude Mythos Preview als neues großes Sprachmodell beziehungsweise Frontier-Modell mit Fähigkeiten unter anderem in Software Engineering, Reasoning, Computer Use, Knowledge Work und Forschungsassistenz. Die offiziellen Quellen belegen also die Positionierung; die exakten Score-Werte in der Übersicht sind in den hier vorliegenden Belegen jedoch vor allem über Drittquellen sichtbar.
Der auffälligste Einzelwert ist 93,9 % auf SWE-bench Verified. W&B berichtet diesen Score für Claude Mythos Preview und stellt ihn einem Vergleichswert von 80,8 % für Claude Opus 4.6 gegenüber. Für Software-Teams ist das deshalb der naheliegende Headline-Benchmark: Er adressiert direkt die Art von Coding- und Reparaturaufgaben, für die agentische Programmiermodelle bewertet werden.
Auch der mehrsprachige Coding-Wert ist hoch: Auf SWE-bench Multilingual berichtet W&B 87,3 % für Mythos Preview gegenüber 77,8 % für Opus 4.6. Das stützt die Einordnung, dass die Stärke nicht nur in einem einzelnen englischsprachigen Coding-Setup liegt.
Trotzdem ist der SWE-bench-Wert keine Garantie dafür, dass ein Modell in jedem Repository, mit jedem Tooling und unter jedem Review-Prozess ähnlich gut funktioniert. Bei Claude Mythos kommt eine zusätzliche Einschränkung hinzu: Externe Teams können das Modell laut Anthropic nicht einfach per Self-Serve-Zugang testen.
Die Cybersecurity-Werte sind ebenso auffällig. Authmind berichtet für Claude Mythos Preview einen perfekten Cybench-Wert von pass@1 = 1,00; Cybench wird dort als öffentlicher Benchmark aus 40 CTF-Challenges beschrieben. Für CyberGym nennt Authmind 0,83 und beschreibt die Evaluation als gezielte Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben.
Diese Werte passen zur offiziellen Einordnung von Anthropic: In den API-Dokumenten wird Mythos Preview ausdrücklich als Research Preview für defensive Cybersecurity-Workflows in Project Glasswing geführt. Auf der Project-Glasswing-Seite verknüpft Anthropic die Cybersecurity-Leistung mit der allgemeinen Fähigkeit, komplexe Software zu verstehen, zu verändern und Schwachstellen zu finden oder zu beheben.
Wichtig ist aber die Aufgabenform: CTF-Challenges und Schwachstellen-Reproduktion sind spezifische Evaluationssettings. Sie sind starke Signale für Sicherheits- und Codeanalyse-Fähigkeiten, ersetzen aber keine eigene Prüfung unter den Sicherheitsregeln, Tool-Beschränkungen und Verantwortlichkeiten einer konkreten Organisation.
Neben Coding und Cybersecurity werden auch starke Reasoning-Werte berichtet. llm-stats nennt 94,6 % auf GPQA Diamond sowie 56,8 % auf Humanity’s Last Exam ohne Tools und 64,7 % mit Tools. Dass die HLE-Werte getrennt nach Tool-Nutzung erscheinen, ist relevant: Tool-Zugriff kann die Vergleichbarkeit von Modellwerten stark beeinflussen.
Bei Terminal-Bench ist die Konfiguration besonders wichtig. llm-stats berichtet 92,1 %, verweist aber zugleich auf ein Setup mit Terminus-2-Harness, maximalem adaptivem Thinking, einem 1M-Token-Budget pro Aufgabe, erweiterten 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates. Das ist kein kleiner Detailhinweis, sondern Teil der Bewertung: Agentenbenchmarks hängen oft stark davon ab, wie viel Zeit, Kontext, Tooling und Budget ein Modell bekommt.
Auch der multimodale Wert sollte vorsichtig gelesen werden. W&B berichtet 59,0 % in einer internen multimodalen Evaluation für Mythos Preview gegenüber 27,1 % für Opus 4.6. llm-stats weist zudem darauf hin, dass SWE-bench Multimodal eine interne Implementierung nutzt und Scores nicht direkt mit öffentlichen Leaderboard-Ergebnissen vergleichbar sind.
Es gibt vier zentrale Einschränkungen:
Eingeschränkter Zugang: Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell ohne Self-Serve-Anmeldung. Das erschwert unabhängige Reproduktion durch normale Entwicklerteams.
Gemischte Quellenlage: Die offiziellen Quellen in dieser Sammlung belegen vor allem Modellstatus, Positionierung und Fähigkeitsbereiche. Viele konkrete Score-Zahlen sind hier über Drittquellen sichtbar.
Interne und spezielle Evaluationskonfigurationen: Der multimodale Wert wird als interne Evaluation berichtet. Terminal-Bench wird mit spezifischem Harness, maximalem Thinking, großem Token-Budget und verlängerten Timeouts beschrieben.
Aufgabenspezifische Aussagekraft: Cybench umfasst laut Authmind 40 CTF-Challenges, CyberGym 1.507 reale Open-Source-Aufgaben zur Schwachstellen-Reproduktion. Das sind wichtige, aber klar umrissene Aufgabenklassen.
Claude Mythos Preview wirkt in den berichteten Benchmarks außergewöhnlich stark: 93,9 % auf SWE-bench Verified, 87,3 % auf SWE-bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.
Die wichtigste Einordnung ist aber nicht nur die Höhe der Scores. Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell für Project Glasswing und kein frei verfügbares Standardmodell. Wer die Zahlen bewertet, sollte sie daher als starkes Fähigkeitssignal für Coding, Agenten und defensive Cybersecurity lesen — aber nicht als vollständig öffentlich reproduzierbare Rangliste.
Comments
0 comments