Claude Mythos Preview ist nicht einfach ein weiteres Claude-Modell auf einem öffentlichen Leaderboard. Anthropic führt es in den Claude-API-Dokumenten als separates Research-Preview-Modell für defensive Cybersecurity-Workflows im Rahmen von Project Glasswing; der Zugang ist einladungspflichtig und ohne Self-Serve-Anmeldung.[13] Die Benchmark-Zahlen sind deshalb spannend, müssen aber anders gelesen werden als die Werte eines breit verfügbaren Produktmodells.
Die wichtigsten Benchmark-Werte
Die konkret sichtbaren Score-Angaben stammen in dieser Quellensammlung überwiegend aus Drittquellen, die auf Anthropic-Daten, System-Card-Auswertungen oder eigene Zusammenfassungen verweisen.[6][
9][
25][
27]
| Bereich | Benchmark | Berichteter Claude-Mythos-Wert | Einordnung |
|---|---|---|---|
| Coding | SWE-bench Verified | 93,9 % | W&B nennt für Claude Opus 4.6 einen Vergleichswert von 80,8 %.[ |
| Mehrsprachiges Coding | SWE-bench Multilingual | 87,3 % | W&B nennt 77,8 % für Claude Opus 4.6.[ |
| Multimodal | Interne multimodale Evaluation | 59,0 % | W&B beschreibt den Wert als interne Evaluation und nennt 27,1 % für Claude Opus 4.6.[ |
| Cybersecurity | Cybench | pass@1 = 1,00 | Authmind beschreibt Cybench als öffentlichen Benchmark mit 40 CTF-Challenges und nennt 0,89 für Claude Opus 4.6.[ |
| Cybersecurity | CyberGym | 0,83 | Authmind beschreibt CyberGym als Evaluation zur gezielten Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben und nennt 0,67 für Claude Opus 4.6.[ |
| Reasoning | GPQA Diamond | 94,6 % | llm-stats nennt 91,3 % für Claude Opus 4.6.[ |
| Reasoning | Humanity’s Last Exam, ohne / mit Tools | 56,8 % / 64,7 % | llm-stats nennt 40,0 % ohne Tools und 53,1 % mit Tools für Claude Opus 4.6.[ |
| Terminal-Agenten | Terminal-Bench-Konfiguration | 92,1 % | llm-stats bindet den Wert an Terminus-2-Harness, maximales adaptives Thinking, 1M-Token-Budget pro Aufgabe, erweiterte 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates.[ |
| Multitask-Wissen | MMMLU | 92,7 | R&D World berichtet, dass dieser Wert mit der angegebenen Gemini-3.1-Pro-Spanne von 92,6 bis 93,6 überlappt und der einzige Ausreißer in einer 17-von-18-Führungsbehauptung war.[ |
Was offiziell von Anthropic abgesichert ist
Am klarsten offiziell belegt ist der Status des Modells: Claude Mythos Preview ist laut Anthropic ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows in Project Glasswing, mit Einladungspflicht und ohne Self-Serve-Zugang.[13]
Anthropics Project-Glasswing-Seite beschreibt Claude Mythos Preview außerdem als allgemeines Frontier-Modell und als Anthropic-Modell mit besonderer Stärke bei Coding und agentischen Aufgaben.[16] Dort erklärt Anthropic auch, dass die Cybersecurity-Stärke aus der breiteren Fähigkeit folge, komplexe Software tief zu verstehen, zu verändern und damit auch Schwachstellen zu finden und zu beheben.[
16]
Die bereitgestellte System-Card-Quelle beschreibt Claude Mythos Preview als neues großes Sprachmodell beziehungsweise Frontier-Modell mit Fähigkeiten unter anderem in Software Engineering, Reasoning, Computer Use, Knowledge Work und Forschungsassistenz.[18] Die offiziellen Quellen belegen also die Positionierung; die exakten Score-Werte in der Übersicht sind in den hier vorliegenden Belegen jedoch vor allem über Drittquellen sichtbar.[
6][
9][
25][
27]
Warum 93,9 % auf SWE-bench der Headline-Score ist
Der auffälligste Einzelwert ist 93,9 % auf SWE-bench Verified. W&B berichtet diesen Score für Claude Mythos Preview und stellt ihn einem Vergleichswert von 80,8 % für Claude Opus 4.6 gegenüber.[6] Für Software-Teams ist das deshalb der naheliegende Headline-Benchmark: Er adressiert direkt die Art von Coding- und Reparaturaufgaben, für die agentische Programmiermodelle bewertet werden.
Auch der mehrsprachige Coding-Wert ist hoch: Auf SWE-bench Multilingual berichtet W&B 87,3 % für Mythos Preview gegenüber 77,8 % für Opus 4.6.[6] Das stützt die Einordnung, dass die Stärke nicht nur in einem einzelnen englischsprachigen Coding-Setup liegt.
Trotzdem ist der SWE-bench-Wert keine Garantie dafür, dass ein Modell in jedem Repository, mit jedem Tooling und unter jedem Review-Prozess ähnlich gut funktioniert. Bei Claude Mythos kommt eine zusätzliche Einschränkung hinzu: Externe Teams können das Modell laut Anthropic nicht einfach per Self-Serve-Zugang testen.[13]
Cybersecurity: starke Zahlen in einem Sonderkontext
Die Cybersecurity-Werte sind ebenso auffällig. Authmind berichtet für Claude Mythos Preview einen perfekten Cybench-Wert von pass@1 = 1,00; Cybench wird dort als öffentlicher Benchmark aus 40 CTF-Challenges beschrieben.[27] Für CyberGym nennt Authmind 0,83 und beschreibt die Evaluation als gezielte Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben.[
27]
Diese Werte passen zur offiziellen Einordnung von Anthropic: In den API-Dokumenten wird Mythos Preview ausdrücklich als Research Preview für defensive Cybersecurity-Workflows in Project Glasswing geführt.[13] Auf der Project-Glasswing-Seite verknüpft Anthropic die Cybersecurity-Leistung mit der allgemeinen Fähigkeit, komplexe Software zu verstehen, zu verändern und Schwachstellen zu finden oder zu beheben.[
16]
Wichtig ist aber die Aufgabenform: CTF-Challenges und Schwachstellen-Reproduktion sind spezifische Evaluationssettings.[27] Sie sind starke Signale für Sicherheits- und Codeanalyse-Fähigkeiten, ersetzen aber keine eigene Prüfung unter den Sicherheitsregeln, Tool-Beschränkungen und Verantwortlichkeiten einer konkreten Organisation.
Reasoning, Multimodalität und Terminal-Agenten
Neben Coding und Cybersecurity werden auch starke Reasoning-Werte berichtet. llm-stats nennt 94,6 % auf GPQA Diamond sowie 56,8 % auf Humanity’s Last Exam ohne Tools und 64,7 % mit Tools.[25] Dass die HLE-Werte getrennt nach Tool-Nutzung erscheinen, ist relevant: Tool-Zugriff kann die Vergleichbarkeit von Modellwerten stark beeinflussen.
Bei Terminal-Bench ist die Konfiguration besonders wichtig. llm-stats berichtet 92,1 %, verweist aber zugleich auf ein Setup mit Terminus-2-Harness, maximalem adaptivem Thinking, einem 1M-Token-Budget pro Aufgabe, erweiterten 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates.[25] Das ist kein kleiner Detailhinweis, sondern Teil der Bewertung: Agentenbenchmarks hängen oft stark davon ab, wie viel Zeit, Kontext, Tooling und Budget ein Modell bekommt.
Auch der multimodale Wert sollte vorsichtig gelesen werden. W&B berichtet 59,0 % in einer internen multimodalen Evaluation für Mythos Preview gegenüber 27,1 % für Opus 4.6.[6] llm-stats weist zudem darauf hin, dass SWE-bench Multimodal eine interne Implementierung nutzt und Scores nicht direkt mit öffentlichen Leaderboard-Ergebnissen vergleichbar sind.[
25]
Warum die Scores nicht wie normale Leaderboard-Werte funktionieren
Es gibt vier zentrale Einschränkungen:
-
Eingeschränkter Zugang: Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell ohne Self-Serve-Anmeldung.[
13] Das erschwert unabhängige Reproduktion durch normale Entwicklerteams.
-
Gemischte Quellenlage: Die offiziellen Quellen in dieser Sammlung belegen vor allem Modellstatus, Positionierung und Fähigkeitsbereiche.[
13][
16][
18] Viele konkrete Score-Zahlen sind hier über Drittquellen sichtbar.[
6][
9][
25][
27]
-
Interne und spezielle Evaluationskonfigurationen: Der multimodale Wert wird als interne Evaluation berichtet.[
6] Terminal-Bench wird mit spezifischem Harness, maximalem Thinking, großem Token-Budget und verlängerten Timeouts beschrieben.[
25]
-
Aufgabenspezifische Aussagekraft: Cybench umfasst laut Authmind 40 CTF-Challenges, CyberGym 1.507 reale Open-Source-Aufgaben zur Schwachstellen-Reproduktion.[
27] Das sind wichtige, aber klar umrissene Aufgabenklassen.
Fazit
Claude Mythos Preview wirkt in den berichteten Benchmarks außergewöhnlich stark: 93,9 % auf SWE-bench Verified, 87,3 % auf SWE-bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.[6][
27]
Die wichtigste Einordnung ist aber nicht nur die Höhe der Scores. Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell für Project Glasswing und kein frei verfügbares Standardmodell.[13] Wer die Zahlen bewertet, sollte sie daher als starkes Fähigkeitssignal für Coding, Agenten und defensive Cybersecurity lesen — aber nicht als vollständig öffentlich reproduzierbare Rangliste.




