Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell. Weitere berichtete Werte: 87,3 % auf SWE bench Multilingual, 59,0 % in einer internen multimodalen E...

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH
Claude Mythos Preview ist nicht einfach ein weiteres Claude-Modell auf einem öffentlichen Leaderboard. Anthropic führt es in den Claude-API-Dokumenten als separates Research-Preview-Modell für defensive Cybersecurity-Workflows im Rahmen von Project Glasswing; der Zugang ist einladungspflichtig und ohne Self-Serve-Anmeldung.[13] Die Benchmark-Zahlen sind deshalb spannend, müssen aber anders gelesen werden als die Werte eines breit verfügbaren Produktmodells.
Die konkret sichtbaren Score-Angaben stammen in dieser Quellensammlung überwiegend aus Drittquellen, die auf Anthropic-Daten, System-Card-Auswertungen oder eigene Zusammenfassungen verweisen.[6][
9][
25][
27]
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell.
Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell. Weitere berichtete Werte: 87,3 % auf SWE bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.
Die Scores sprechen für starke Coding , Agenten und Cybersecurity Fähigkeiten, sind aber wegen Drittquellen, interner Testkonfigurationen und eingeschränktem Zugang nur bedingt wie öffentliche Leaderboard Werte zu lesen.
Fahren Sie mit „Gemini in Google Maps für CarPlay: Was der iOS-Code verrät“ für einen anderen Blickwinkel und zusätzliche Zitate fort.
Open related pageVergleichen Sie diese Antwort mit „Claude Code Agent View: Anthropic bündelt parallele KI-Coding-Sessions im Terminal“.
Open related pageImage 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...
Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...
Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...
01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...
| Bereich | Benchmark | Berichteter Claude-Mythos-Wert | Einordnung |
|---|---|---|---|
| Coding | SWE-bench Verified | 93,9 % | W&B nennt für Claude Opus 4.6 einen Vergleichswert von 80,8 %.[ |
| Mehrsprachiges Coding | SWE-bench Multilingual | 87,3 % | W&B nennt 77,8 % für Claude Opus 4.6.[ |
| Multimodal | Interne multimodale Evaluation | 59,0 % | W&B beschreibt den Wert als interne Evaluation und nennt 27,1 % für Claude Opus 4.6.[ |
| Cybersecurity | Cybench | pass@1 = 1,00 | Authmind beschreibt Cybench als öffentlichen Benchmark mit 40 CTF-Challenges und nennt 0,89 für Claude Opus 4.6.[ |
| Cybersecurity | CyberGym | 0,83 | Authmind beschreibt CyberGym als Evaluation zur gezielten Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben und nennt 0,67 für Claude Opus 4.6.[ |
| Reasoning | GPQA Diamond | 94,6 % | llm-stats nennt 91,3 % für Claude Opus 4.6.[ |
| Reasoning | Humanity’s Last Exam, ohne / mit Tools | 56,8 % / 64,7 % | llm-stats nennt 40,0 % ohne Tools und 53,1 % mit Tools für Claude Opus 4.6.[ |
| Terminal-Agenten | Terminal-Bench-Konfiguration | 92,1 % | llm-stats bindet den Wert an Terminus-2-Harness, maximales adaptives Thinking, 1M-Token-Budget pro Aufgabe, erweiterte 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates.[ |
| Multitask-Wissen | MMMLU | 92,7 | R&D World berichtet, dass dieser Wert mit der angegebenen Gemini-3.1-Pro-Spanne von 92,6 bis 93,6 überlappt und der einzige Ausreißer in einer 17-von-18-Führungsbehauptung war.[ |
Am klarsten offiziell belegt ist der Status des Modells: Claude Mythos Preview ist laut Anthropic ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows in Project Glasswing, mit Einladungspflicht und ohne Self-Serve-Zugang.[13]
Anthropics Project-Glasswing-Seite beschreibt Claude Mythos Preview außerdem als allgemeines Frontier-Modell und als Anthropic-Modell mit besonderer Stärke bei Coding und agentischen Aufgaben.[16] Dort erklärt Anthropic auch, dass die Cybersecurity-Stärke aus der breiteren Fähigkeit folge, komplexe Software tief zu verstehen, zu verändern und damit auch Schwachstellen zu finden und zu beheben.[
16]
Die bereitgestellte System-Card-Quelle beschreibt Claude Mythos Preview als neues großes Sprachmodell beziehungsweise Frontier-Modell mit Fähigkeiten unter anderem in Software Engineering, Reasoning, Computer Use, Knowledge Work und Forschungsassistenz.[18] Die offiziellen Quellen belegen also die Positionierung; die exakten Score-Werte in der Übersicht sind in den hier vorliegenden Belegen jedoch vor allem über Drittquellen sichtbar.[
6][
9][
25][
27]
Der auffälligste Einzelwert ist 93,9 % auf SWE-bench Verified. W&B berichtet diesen Score für Claude Mythos Preview und stellt ihn einem Vergleichswert von 80,8 % für Claude Opus 4.6 gegenüber.[6] Für Software-Teams ist das deshalb der naheliegende Headline-Benchmark: Er adressiert direkt die Art von Coding- und Reparaturaufgaben, für die agentische Programmiermodelle bewertet werden.
Auch der mehrsprachige Coding-Wert ist hoch: Auf SWE-bench Multilingual berichtet W&B 87,3 % für Mythos Preview gegenüber 77,8 % für Opus 4.6.[6] Das stützt die Einordnung, dass die Stärke nicht nur in einem einzelnen englischsprachigen Coding-Setup liegt.
Trotzdem ist der SWE-bench-Wert keine Garantie dafür, dass ein Modell in jedem Repository, mit jedem Tooling und unter jedem Review-Prozess ähnlich gut funktioniert. Bei Claude Mythos kommt eine zusätzliche Einschränkung hinzu: Externe Teams können das Modell laut Anthropic nicht einfach per Self-Serve-Zugang testen.[13]
Die Cybersecurity-Werte sind ebenso auffällig. Authmind berichtet für Claude Mythos Preview einen perfekten Cybench-Wert von pass@1 = 1,00; Cybench wird dort als öffentlicher Benchmark aus 40 CTF-Challenges beschrieben.[27] Für CyberGym nennt Authmind 0,83 und beschreibt die Evaluation als gezielte Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben.[
27]
Diese Werte passen zur offiziellen Einordnung von Anthropic: In den API-Dokumenten wird Mythos Preview ausdrücklich als Research Preview für defensive Cybersecurity-Workflows in Project Glasswing geführt.[13] Auf der Project-Glasswing-Seite verknüpft Anthropic die Cybersecurity-Leistung mit der allgemeinen Fähigkeit, komplexe Software zu verstehen, zu verändern und Schwachstellen zu finden oder zu beheben.[
16]
Wichtig ist aber die Aufgabenform: CTF-Challenges und Schwachstellen-Reproduktion sind spezifische Evaluationssettings.[27] Sie sind starke Signale für Sicherheits- und Codeanalyse-Fähigkeiten, ersetzen aber keine eigene Prüfung unter den Sicherheitsregeln, Tool-Beschränkungen und Verantwortlichkeiten einer konkreten Organisation.
Neben Coding und Cybersecurity werden auch starke Reasoning-Werte berichtet. llm-stats nennt 94,6 % auf GPQA Diamond sowie 56,8 % auf Humanity’s Last Exam ohne Tools und 64,7 % mit Tools.[25] Dass die HLE-Werte getrennt nach Tool-Nutzung erscheinen, ist relevant: Tool-Zugriff kann die Vergleichbarkeit von Modellwerten stark beeinflussen.
Bei Terminal-Bench ist die Konfiguration besonders wichtig. llm-stats berichtet 92,1 %, verweist aber zugleich auf ein Setup mit Terminus-2-Harness, maximalem adaptivem Thinking, einem 1M-Token-Budget pro Aufgabe, erweiterten 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates.[25] Das ist kein kleiner Detailhinweis, sondern Teil der Bewertung: Agentenbenchmarks hängen oft stark davon ab, wie viel Zeit, Kontext, Tooling und Budget ein Modell bekommt.
Auch der multimodale Wert sollte vorsichtig gelesen werden. W&B berichtet 59,0 % in einer internen multimodalen Evaluation für Mythos Preview gegenüber 27,1 % für Opus 4.6.[6] llm-stats weist zudem darauf hin, dass SWE-bench Multimodal eine interne Implementierung nutzt und Scores nicht direkt mit öffentlichen Leaderboard-Ergebnissen vergleichbar sind.[
25]
Es gibt vier zentrale Einschränkungen:
Eingeschränkter Zugang: Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell ohne Self-Serve-Anmeldung.[13] Das erschwert unabhängige Reproduktion durch normale Entwicklerteams.
Gemischte Quellenlage: Die offiziellen Quellen in dieser Sammlung belegen vor allem Modellstatus, Positionierung und Fähigkeitsbereiche.[13][
16][
18] Viele konkrete Score-Zahlen sind hier über Drittquellen sichtbar.[
6][
9][
25][
27]
Interne und spezielle Evaluationskonfigurationen: Der multimodale Wert wird als interne Evaluation berichtet.[6] Terminal-Bench wird mit spezifischem Harness, maximalem Thinking, großem Token-Budget und verlängerten Timeouts beschrieben.[
25]
Aufgabenspezifische Aussagekraft: Cybench umfasst laut Authmind 40 CTF-Challenges, CyberGym 1.507 reale Open-Source-Aufgaben zur Schwachstellen-Reproduktion.[27] Das sind wichtige, aber klar umrissene Aufgabenklassen.
Claude Mythos Preview wirkt in den berichteten Benchmarks außergewöhnlich stark: 93,9 % auf SWE-bench Verified, 87,3 % auf SWE-bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.[6][
27]
Die wichtigste Einordnung ist aber nicht nur die Höhe der Scores. Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell für Project Glasswing und kein frei verfügbares Standardmodell.[13] Wer die Zahlen bewertet, sollte sie daher als starkes Fähigkeitssignal für Coding, Agenten und defensive Cybersecurity lesen — aber nicht als vollständig öffentlich reproduzierbare Rangliste.
Gemini in Google Maps für CarPlay: Was der iOS-Code verrät
Red Teaming benchmark for tool use 232 8.3.2.2 Robustness against adaptive attackers across surfaces 233 8.3.2.2.1 Coding 233 8.3.2.2.2 Computer use 234 8.3.2.2.3 Browser use 235 8.4 Per-question automated welfare interview results 236 8.5 Blocklist u...
\SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...
On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...