studioglobal
Tendencias en Descubrir
RespuestasPublicado7 fuentes

Benchmarks de Claude Mythos: cifras clave y límites

Claude Mythos Preview destaca por el 93,9 % reportado en SWE bench Verified, aunque Anthropic lo presenta como un modelo de investigación con acceso por invitación. Entre los valores citados figuran 87,3 % en SWE bench Multilingual, 59,0 % en una evaluación multimodal interna, 0,83 en CyberGym y pass@1 = 1,00 en Cyb...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
Prompt de IA

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

El titular es tentador: Claude Mythos Preview aparece con un 93,9 % en SWE-bench Verified. Pero esa cifra necesita contexto. Anthropic no lo presenta como un Claude más en una tabla pública, sino como un modelo de investigación separado para flujos defensivos de ciberseguridad dentro de Project Glasswing, con acceso solo por invitación y sin alta autoservicio.[13] Por eso sus benchmarks sirven como señal de capacidad, no como una comparación limpia con modelos disponibles para cualquier equipo.

Las cifras principales

Los valores concretos que circulan en las fuentes disponibles proceden sobre todo de terceros que citan datos de Anthropic, evaluaciones de la system card o sus propios resúmenes.[6][9][25][27]

ÁreaBenchmarkValor reportado para Claude MythosCómo leerlo
ProgramaciónSWE-bench Verified93,9 %[6]W&B cita 80,8 % para Claude Opus 4.6 como comparación.[6]
Programación multilingüeSWE-bench Multilingual87,3 %[6]W&B cita 77,8 % para Claude Opus 4.6.[6]
MultimodalEvaluación multimodal interna59,0 %[6]W&B la describe como una evaluación interna y cita 27,1 % para Claude Opus 4.6.[6]
CiberseguridadCybenchpass@1 = 1,00[27]Authmind describe Cybench como un benchmark público con 40 retos CTF y cita 0,89 para Claude Opus 4.6.[27]
CiberseguridadCyberGym0,83[27]Authmind describe CyberGym como una evaluación de reproducción dirigida de vulnerabilidades sobre 1.507 tareas reales de software abierto y cita 0,67 para Claude Opus 4.6.[27]
RazonamientoGPQA Diamond94,6 %[25]llm-stats cita 91,3 % para Claude Opus 4.6.[25]
RazonamientoHumanity’s Last Exam, sin / con herramientas56,8 % / 64,7 %[25]llm-stats cita 40,0 % sin herramientas y 53,1 % con herramientas para Claude Opus 4.6.[25]
Agentes de terminalConfiguración de Terminal-Bench92,1 %[25]llm-stats vincula el valor al harness Terminus-2, pensamiento adaptativo máximo, 1 millón de tokens por tarea, timeouts ampliados de 4 horas y actualizaciones de Terminal-Bench 2.1.[25]
Conocimiento multitareaMMMLU92,7[9]R&D World informa de que ese valor se solapa con la horquilla de Gemini 3.1 Pro, de 92,6 a 93,6, y fue el único punto fuera de una afirmación de liderazgo en 17 de 18 benchmarks.[9]

Qué está respaldado oficialmente

Lo más claro en las fuentes oficiales es el estatus del modelo. Según la documentación de la API de Claude, Claude Mythos Preview se ofrece por separado como research preview para flujos de trabajo defensivos de ciberseguridad dentro de Project Glasswing; el acceso es por invitación y no existe registro autoservicio.[13]

En la página de Project Glasswing, Anthropic describe Claude Mythos Preview como un modelo de frontera de propósito general y como su modelo más capaz hasta ahora para programación y tareas agénticas. También vincula su fortaleza en ciberseguridad con una capacidad más amplia: entender y modificar software complejo, y por tanto encontrar y corregir vulnerabilidades.[16]

La system card disponible lo presenta como un nuevo gran modelo de lenguaje, o modelo de frontera, con capacidades en ingeniería de software, razonamiento, uso de computadora, trabajo de conocimiento y asistencia a la investigación.[18] En resumen: las fuentes oficiales sostienen la posición del modelo y sus áreas de capacidad; las cifras exactas de la tabla aparecen aquí principalmente a través de fuentes de terceros.[6][9][25][27]

Por qué el 93,9 % en SWE-bench es el dato que se lleva el foco

El valor más llamativo es el 93,9 % en SWE-bench Verified. W&B reporta esa puntuación para Claude Mythos Preview y la compara con el 80,8 % de Claude Opus 4.6.[6] Para equipos de software, es lógico que ese sea el benchmark de cabecera: evalúa tareas de programación y reparación de código, justo el terreno donde se miden muchos modelos agénticos de desarrollo.

El resultado multilingüe también pesa. En SWE-bench Multilingual, W&B reporta 87,3 % para Mythos Preview frente a 77,8 % para Opus 4.6.[6] Eso sugiere que la mejora no se limita a un único entorno de programación en inglés.

Aun así, un buen resultado en SWE-bench no garantiza el mismo rendimiento en cualquier repositorio, con cualquier pila de herramientas o bajo cualquier proceso de revisión. En el caso de Claude Mythos hay además una limitación práctica: los equipos externos no pueden simplemente activarlo por autoservicio para reproducir sus pruebas.[13]

Ciberseguridad: números fuertes, pero en un escenario particular

Las cifras de ciberseguridad también llaman la atención. Authmind reporta para Claude Mythos Preview un resultado perfecto en Cybench, con pass@1 = 1,00; describe Cybench como un benchmark público basado en 40 retos CTF, es decir, pruebas competitivas de seguridad tipo Capture the Flag.[27] Para CyberGym, Authmind cita 0,83 y describe la evaluación como reproducción dirigida de vulnerabilidades sobre 1.507 tareas reales de código abierto.[27]

Estos datos encajan con la forma en que Anthropic presenta el modelo: Mythos Preview aparece en la documentación de la API como research preview para ciberseguridad defensiva dentro de Project Glasswing.[13] La página del proyecto conecta esa capacidad con una comprensión profunda del software complejo y con la posibilidad de encontrar y corregir vulnerabilidades.[16]

La cautela está en el tipo de prueba. Los retos CTF y la reproducción de vulnerabilidades son escenarios muy concretos.[27] Son señales potentes para análisis de código y seguridad, pero no sustituyen una validación propia bajo las reglas, límites de herramientas, controles internos y responsabilidades legales de una organización concreta.

Razonamiento, multimodalidad y agentes de terminal

Fuera de programación y ciberseguridad también se reportan resultados altos. llm-stats cita 94,6 % en GPQA Diamond y, en Humanity’s Last Exam, 56,8 % sin herramientas y 64,7 % con herramientas.[25] Esa separación importa: permitir o no el uso de herramientas puede cambiar mucho la lectura de una puntuación.

Terminal-Bench requiere todavía más cuidado. llm-stats reporta 92,1 %, pero asociado a una configuración específica: harness Terminus-2, pensamiento adaptativo al máximo, presupuesto de 1 millón de tokens por tarea, timeouts extendidos de 4 horas y actualizaciones de Terminal-Bench 2.1.[25] En benchmarks de agentes, esos detalles no son letra pequeña: el tiempo, el contexto, las herramientas y el presupuesto computacional forman parte de la prueba.

El dato multimodal también debe leerse con prudencia. W&B reporta 59,0 % en una evaluación multimodal interna para Mythos Preview, frente a 27,1 % para Opus 4.6.[6] Además, llm-stats advierte que SWE-bench Multimodal usa una implementación interna y que sus resultados no son directamente comparables con los de rankings públicos.[25]

Por qué no conviene leer estos scores como una clasificación normal

Hay cuatro límites principales:

  1. Acceso restringido. Anthropic indica que Claude Mythos Preview es un modelo de investigación por invitación y sin alta autoservicio.[13] Eso dificulta que equipos de desarrollo independientes reproduzcan los resultados por su cuenta.

  2. Fuentes mixtas. Las fuentes oficiales disponibles respaldan sobre todo el estatus del modelo, su encaje en Project Glasswing y sus áreas de capacidad.[13][16][18] Muchas cifras concretas aparecen en esta recopilación mediante fuentes de terceros.[6][9][25][27]

  3. Configuraciones internas o especiales. El resultado multimodal se presenta como evaluación interna.[6] Terminal-Bench, por su parte, aparece ligado a un harness, pensamiento adaptativo máximo, un gran presupuesto de tokens y timeouts ampliados.[25]

  4. Alcance específico de las tareas. Cybench incluye, según Authmind, 40 retos CTF; CyberGym evalúa la reproducción dirigida de vulnerabilidades sobre 1.507 tareas reales de software abierto.[27] Son pruebas importantes, pero no equivalen a todos los usos posibles de un modelo en seguridad.

Conclusión

Claude Mythos Preview aparece como un modelo extraordinariamente fuerte en los benchmarks reportados: 93,9 % en SWE-bench Verified, 87,3 % en SWE-bench Multilingual, 59,0 % en una evaluación multimodal interna, 0,83 en CyberGym y pass@1 = 1,00 en Cybench.[6][27]

Pero la clave no es solo la altura de las puntuaciones. Anthropic lo presenta como un research preview de Project Glasswing con acceso por invitación, no como un modelo estándar disponible de forma abierta.[13] La lectura más razonable es verlo como una señal muy potente de capacidad en programación, agentes y ciberseguridad defensiva, pero no como una tabla pública plenamente comparable y reproducible.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

  • Claude Mythos Preview destaca por el 93,9 % reportado en SWE bench Verified, aunque Anthropic lo presenta como un modelo de investigación con acceso por invitación.
  • Entre los valores citados figuran 87,3 % en SWE bench Multilingual, 59,0 % en una evaluación multimodal interna, 0,83 en CyberGym y pass@1 = 1,00 en Cybench.
  • Las cifras apuntan a capacidades fuertes en programación, agentes y ciberseguridad defensiva, pero no son equivalentes a una clasificación pública plenamente reproducible.

La gente también pregunta

¿Cuál es la respuesta corta a "Benchmarks de Claude Mythos: cifras clave y límites"?

Claude Mythos Preview destaca por el 93,9 % reportado en SWE bench Verified, aunque Anthropic lo presenta como un modelo de investigación con acceso por invitación.

¿Cuáles son los puntos clave a validar primero?

Claude Mythos Preview destaca por el 93,9 % reportado en SWE bench Verified, aunque Anthropic lo presenta como un modelo de investigación con acceso por invitación. Entre los valores citados figuran 87,3 % en SWE bench Multilingual, 59,0 % en una evaluación multimodal interna, 0,83 en CyberGym y pass@1 = 1,00 en Cybench.

¿Qué debo hacer a continuación en la práctica?

Las cifras apuntan a capacidades fuertes en programación, agentes y ciberseguridad defensiva, pero no son equivalentes a una clasificación pública plenamente reproducible.

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Conversación de investigación

Pregunta de investigación

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 fuentes

Respuesta citada

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Fuentes

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...