studioglobal
Trendthemen auf Entdecken
AntwortenVeröffentlicht7 Quellen

Claude Mythos Benchmarks: Die wichtigsten Scores und ihre Grenzen

Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell. Weitere berichtete Werte: 87,3 % auf SWE bench Multilingual, 59,0 % in einer internen multimodalen E...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
KI-Prompt

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview ist nicht einfach ein weiteres Claude-Modell auf einem öffentlichen Leaderboard. Anthropic führt es in den Claude-API-Dokumenten als separates Research-Preview-Modell für defensive Cybersecurity-Workflows im Rahmen von Project Glasswing; der Zugang ist einladungspflichtig und ohne Self-Serve-Anmeldung.[13] Die Benchmark-Zahlen sind deshalb spannend, müssen aber anders gelesen werden als die Werte eines breit verfügbaren Produktmodells.

Die wichtigsten Benchmark-Werte

Die konkret sichtbaren Score-Angaben stammen in dieser Quellensammlung überwiegend aus Drittquellen, die auf Anthropic-Daten, System-Card-Auswertungen oder eigene Zusammenfassungen verweisen.[6][9][25][27]

BereichBenchmarkBerichteter Claude-Mythos-WertEinordnung
CodingSWE-bench Verified93,9 %W&B nennt für Claude Opus 4.6 einen Vergleichswert von 80,8 %.[6]
Mehrsprachiges CodingSWE-bench Multilingual87,3 %W&B nennt 77,8 % für Claude Opus 4.6.[6]
MultimodalInterne multimodale Evaluation59,0 %W&B beschreibt den Wert als interne Evaluation und nennt 27,1 % für Claude Opus 4.6.[6]
CybersecurityCybenchpass@1 = 1,00Authmind beschreibt Cybench als öffentlichen Benchmark mit 40 CTF-Challenges und nennt 0,89 für Claude Opus 4.6.[27]
CybersecurityCyberGym0,83Authmind beschreibt CyberGym als Evaluation zur gezielten Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben und nennt 0,67 für Claude Opus 4.6.[27]
ReasoningGPQA Diamond94,6 %llm-stats nennt 91,3 % für Claude Opus 4.6.[25]
ReasoningHumanity’s Last Exam, ohne / mit Tools56,8 % / 64,7 %llm-stats nennt 40,0 % ohne Tools und 53,1 % mit Tools für Claude Opus 4.6.[25]
Terminal-AgentenTerminal-Bench-Konfiguration92,1 %llm-stats bindet den Wert an Terminus-2-Harness, maximales adaptives Thinking, 1M-Token-Budget pro Aufgabe, erweiterte 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates.[25]
Multitask-WissenMMMLU92,7R&D World berichtet, dass dieser Wert mit der angegebenen Gemini-3.1-Pro-Spanne von 92,6 bis 93,6 überlappt und der einzige Ausreißer in einer 17-von-18-Führungsbehauptung war.[9]

Was offiziell von Anthropic abgesichert ist

Am klarsten offiziell belegt ist der Status des Modells: Claude Mythos Preview ist laut Anthropic ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows in Project Glasswing, mit Einladungspflicht und ohne Self-Serve-Zugang.[13]

Anthropics Project-Glasswing-Seite beschreibt Claude Mythos Preview außerdem als allgemeines Frontier-Modell und als Anthropic-Modell mit besonderer Stärke bei Coding und agentischen Aufgaben.[16] Dort erklärt Anthropic auch, dass die Cybersecurity-Stärke aus der breiteren Fähigkeit folge, komplexe Software tief zu verstehen, zu verändern und damit auch Schwachstellen zu finden und zu beheben.[16]

Die bereitgestellte System-Card-Quelle beschreibt Claude Mythos Preview als neues großes Sprachmodell beziehungsweise Frontier-Modell mit Fähigkeiten unter anderem in Software Engineering, Reasoning, Computer Use, Knowledge Work und Forschungsassistenz.[18] Die offiziellen Quellen belegen also die Positionierung; die exakten Score-Werte in der Übersicht sind in den hier vorliegenden Belegen jedoch vor allem über Drittquellen sichtbar.[6][9][25][27]

Warum 93,9 % auf SWE-bench der Headline-Score ist

Der auffälligste Einzelwert ist 93,9 % auf SWE-bench Verified. W&B berichtet diesen Score für Claude Mythos Preview und stellt ihn einem Vergleichswert von 80,8 % für Claude Opus 4.6 gegenüber.[6] Für Software-Teams ist das deshalb der naheliegende Headline-Benchmark: Er adressiert direkt die Art von Coding- und Reparaturaufgaben, für die agentische Programmiermodelle bewertet werden.

Auch der mehrsprachige Coding-Wert ist hoch: Auf SWE-bench Multilingual berichtet W&B 87,3 % für Mythos Preview gegenüber 77,8 % für Opus 4.6.[6] Das stützt die Einordnung, dass die Stärke nicht nur in einem einzelnen englischsprachigen Coding-Setup liegt.

Trotzdem ist der SWE-bench-Wert keine Garantie dafür, dass ein Modell in jedem Repository, mit jedem Tooling und unter jedem Review-Prozess ähnlich gut funktioniert. Bei Claude Mythos kommt eine zusätzliche Einschränkung hinzu: Externe Teams können das Modell laut Anthropic nicht einfach per Self-Serve-Zugang testen.[13]

Cybersecurity: starke Zahlen in einem Sonderkontext

Die Cybersecurity-Werte sind ebenso auffällig. Authmind berichtet für Claude Mythos Preview einen perfekten Cybench-Wert von pass@1 = 1,00; Cybench wird dort als öffentlicher Benchmark aus 40 CTF-Challenges beschrieben.[27] Für CyberGym nennt Authmind 0,83 und beschreibt die Evaluation als gezielte Schwachstellen-Reproduktion über 1.507 reale Open-Source-Aufgaben.[27]

Diese Werte passen zur offiziellen Einordnung von Anthropic: In den API-Dokumenten wird Mythos Preview ausdrücklich als Research Preview für defensive Cybersecurity-Workflows in Project Glasswing geführt.[13] Auf der Project-Glasswing-Seite verknüpft Anthropic die Cybersecurity-Leistung mit der allgemeinen Fähigkeit, komplexe Software zu verstehen, zu verändern und Schwachstellen zu finden oder zu beheben.[16]

Wichtig ist aber die Aufgabenform: CTF-Challenges und Schwachstellen-Reproduktion sind spezifische Evaluationssettings.[27] Sie sind starke Signale für Sicherheits- und Codeanalyse-Fähigkeiten, ersetzen aber keine eigene Prüfung unter den Sicherheitsregeln, Tool-Beschränkungen und Verantwortlichkeiten einer konkreten Organisation.

Reasoning, Multimodalität und Terminal-Agenten

Neben Coding und Cybersecurity werden auch starke Reasoning-Werte berichtet. llm-stats nennt 94,6 % auf GPQA Diamond sowie 56,8 % auf Humanity’s Last Exam ohne Tools und 64,7 % mit Tools.[25] Dass die HLE-Werte getrennt nach Tool-Nutzung erscheinen, ist relevant: Tool-Zugriff kann die Vergleichbarkeit von Modellwerten stark beeinflussen.

Bei Terminal-Bench ist die Konfiguration besonders wichtig. llm-stats berichtet 92,1 %, verweist aber zugleich auf ein Setup mit Terminus-2-Harness, maximalem adaptivem Thinking, einem 1M-Token-Budget pro Aufgabe, erweiterten 4-Stunden-Timeouts und Terminal-Bench-2.1-Updates.[25] Das ist kein kleiner Detailhinweis, sondern Teil der Bewertung: Agentenbenchmarks hängen oft stark davon ab, wie viel Zeit, Kontext, Tooling und Budget ein Modell bekommt.

Auch der multimodale Wert sollte vorsichtig gelesen werden. W&B berichtet 59,0 % in einer internen multimodalen Evaluation für Mythos Preview gegenüber 27,1 % für Opus 4.6.[6] llm-stats weist zudem darauf hin, dass SWE-bench Multimodal eine interne Implementierung nutzt und Scores nicht direkt mit öffentlichen Leaderboard-Ergebnissen vergleichbar sind.[25]

Warum die Scores nicht wie normale Leaderboard-Werte funktionieren

Es gibt vier zentrale Einschränkungen:

  1. Eingeschränkter Zugang: Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell ohne Self-Serve-Anmeldung.[13] Das erschwert unabhängige Reproduktion durch normale Entwicklerteams.

  2. Gemischte Quellenlage: Die offiziellen Quellen in dieser Sammlung belegen vor allem Modellstatus, Positionierung und Fähigkeitsbereiche.[13][16][18] Viele konkrete Score-Zahlen sind hier über Drittquellen sichtbar.[6][9][25][27]

  3. Interne und spezielle Evaluationskonfigurationen: Der multimodale Wert wird als interne Evaluation berichtet.[6] Terminal-Bench wird mit spezifischem Harness, maximalem Thinking, großem Token-Budget und verlängerten Timeouts beschrieben.[25]

  4. Aufgabenspezifische Aussagekraft: Cybench umfasst laut Authmind 40 CTF-Challenges, CyberGym 1.507 reale Open-Source-Aufgaben zur Schwachstellen-Reproduktion.[27] Das sind wichtige, aber klar umrissene Aufgabenklassen.

Fazit

Claude Mythos Preview wirkt in den berichteten Benchmarks außergewöhnlich stark: 93,9 % auf SWE-bench Verified, 87,3 % auf SWE-bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.[6][27]

Die wichtigste Einordnung ist aber nicht nur die Höhe der Scores. Claude Mythos Preview ist laut Anthropic ein einladungspflichtiges Research-Preview-Modell für Project Glasswing und kein frei verfügbares Standardmodell.[13] Wer die Zahlen bewertet, sollte sie daher als starkes Fähigkeitssignal für Coding, Agenten und defensive Cybersecurity lesen — aber nicht als vollständig öffentlich reproduzierbare Rangliste.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

  • Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell.
  • Weitere berichtete Werte: 87,3 % auf SWE bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.
  • Die Scores sprechen für starke Coding , Agenten und Cybersecurity Fähigkeiten, sind aber wegen Drittquellen, interner Testkonfigurationen und eingeschränktem Zugang nur bedingt wie öffentliche Leaderboard Werte zu lesen.

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Claude Mythos Benchmarks: Die wichtigsten Scores und ihre Grenzen“?

Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Claude Mythos Preview fällt vor allem durch 93,9 % auf SWE bench Verified auf; gleichzeitig ist es laut Anthropic ein einladungspflichtiges Project Glasswing Research Preview und kein frei verfügbares Standardmodell. Weitere berichtete Werte: 87,3 % auf SWE bench Multilingual, 59,0 % in einer internen multimodalen Evaluation, 0,83 auf CyberGym und pass@1 = 1,00 auf Cybench.

Was soll ich als nächstes in der Praxis tun?

Die Scores sprechen für starke Coding , Agenten und Cybersecurity Fähigkeiten, sind aber wegen Drittquellen, interner Testkonfigurationen und eingeschränktem Zugang nur bedingt wie öffentliche Leaderboard Werte zu lesen.

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Sprachinput und Wortschatz: Was die Forschung zum frühen Wörterlernen zeigt“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „Sprachentwicklung: Warum die Art der Antwort zählt“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Forschungsgespräch

Du

Forschungsfrage

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 Quellen

Zitierte Antwort

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Quellen

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...