El titular es tentador: Claude Mythos Preview aparece con un 93,9 % en SWE-bench Verified. Pero esa cifra necesita contexto. Anthropic no lo presenta como un Claude más en una tabla pública, sino como un modelo de investigación separado para flujos defensivos de ciberseguridad dentro de Project Glasswing, con acceso solo por invitación y sin alta autoservicio.[13] Por eso sus benchmarks sirven como señal de capacidad, no como una comparación limpia con modelos disponibles para cualquier equipo.
Las cifras principales
Los valores concretos que circulan en las fuentes disponibles proceden sobre todo de terceros que citan datos de Anthropic, evaluaciones de la system card o sus propios resúmenes.[6][
9][
25][
27]
| Área | Benchmark | Valor reportado para Claude Mythos | Cómo leerlo |
|---|---|---|---|
| Programación | SWE-bench Verified | 93,9 %[ | W&B cita 80,8 % para Claude Opus 4.6 como comparación.[ |
| Programación multilingüe | SWE-bench Multilingual | 87,3 %[ | W&B cita 77,8 % para Claude Opus 4.6.[ |
| Multimodal | Evaluación multimodal interna | 59,0 %[ | W&B la describe como una evaluación interna y cita 27,1 % para Claude Opus 4.6.[ |
| Ciberseguridad | Cybench | pass@1 = 1,00[ | Authmind describe Cybench como un benchmark público con 40 retos CTF y cita 0,89 para Claude Opus 4.6.[ |
| Ciberseguridad | CyberGym | 0,83[ | Authmind describe CyberGym como una evaluación de reproducción dirigida de vulnerabilidades sobre 1.507 tareas reales de software abierto y cita 0,67 para Claude Opus 4.6.[ |
| Razonamiento | GPQA Diamond | 94,6 %[ | llm-stats cita 91,3 % para Claude Opus 4.6.[ |
| Razonamiento | Humanity’s Last Exam, sin / con herramientas | 56,8 % / 64,7 %[ | llm-stats cita 40,0 % sin herramientas y 53,1 % con herramientas para Claude Opus 4.6.[ |
| Agentes de terminal | Configuración de Terminal-Bench | 92,1 %[ | llm-stats vincula el valor al harness Terminus-2, pensamiento adaptativo máximo, 1 millón de tokens por tarea, timeouts ampliados de 4 horas y actualizaciones de Terminal-Bench 2.1.[ |
| Conocimiento multitarea | MMMLU | 92,7[ | R&D World informa de que ese valor se solapa con la horquilla de Gemini 3.1 Pro, de 92,6 a 93,6, y fue el único punto fuera de una afirmación de liderazgo en 17 de 18 benchmarks.[ |
Qué está respaldado oficialmente
Lo más claro en las fuentes oficiales es el estatus del modelo. Según la documentación de la API de Claude, Claude Mythos Preview se ofrece por separado como research preview para flujos de trabajo defensivos de ciberseguridad dentro de Project Glasswing; el acceso es por invitación y no existe registro autoservicio.[13]
En la página de Project Glasswing, Anthropic describe Claude Mythos Preview como un modelo de frontera de propósito general y como su modelo más capaz hasta ahora para programación y tareas agénticas. También vincula su fortaleza en ciberseguridad con una capacidad más amplia: entender y modificar software complejo, y por tanto encontrar y corregir vulnerabilidades.[16]
La system card disponible lo presenta como un nuevo gran modelo de lenguaje, o modelo de frontera, con capacidades en ingeniería de software, razonamiento, uso de computadora, trabajo de conocimiento y asistencia a la investigación.[18] En resumen: las fuentes oficiales sostienen la posición del modelo y sus áreas de capacidad; las cifras exactas de la tabla aparecen aquí principalmente a través de fuentes de terceros.[
6][
9][
25][
27]
Por qué el 93,9 % en SWE-bench es el dato que se lleva el foco
El valor más llamativo es el 93,9 % en SWE-bench Verified. W&B reporta esa puntuación para Claude Mythos Preview y la compara con el 80,8 % de Claude Opus 4.6.[6] Para equipos de software, es lógico que ese sea el benchmark de cabecera: evalúa tareas de programación y reparación de código, justo el terreno donde se miden muchos modelos agénticos de desarrollo.
El resultado multilingüe también pesa. En SWE-bench Multilingual, W&B reporta 87,3 % para Mythos Preview frente a 77,8 % para Opus 4.6.[6] Eso sugiere que la mejora no se limita a un único entorno de programación en inglés.
Aun así, un buen resultado en SWE-bench no garantiza el mismo rendimiento en cualquier repositorio, con cualquier pila de herramientas o bajo cualquier proceso de revisión. En el caso de Claude Mythos hay además una limitación práctica: los equipos externos no pueden simplemente activarlo por autoservicio para reproducir sus pruebas.[13]
Ciberseguridad: números fuertes, pero en un escenario particular
Las cifras de ciberseguridad también llaman la atención. Authmind reporta para Claude Mythos Preview un resultado perfecto en Cybench, con pass@1 = 1,00; describe Cybench como un benchmark público basado en 40 retos CTF, es decir, pruebas competitivas de seguridad tipo Capture the Flag.[27] Para CyberGym, Authmind cita 0,83 y describe la evaluación como reproducción dirigida de vulnerabilidades sobre 1.507 tareas reales de código abierto.[
27]
Estos datos encajan con la forma en que Anthropic presenta el modelo: Mythos Preview aparece en la documentación de la API como research preview para ciberseguridad defensiva dentro de Project Glasswing.[13] La página del proyecto conecta esa capacidad con una comprensión profunda del software complejo y con la posibilidad de encontrar y corregir vulnerabilidades.[
16]
La cautela está en el tipo de prueba. Los retos CTF y la reproducción de vulnerabilidades son escenarios muy concretos.[27] Son señales potentes para análisis de código y seguridad, pero no sustituyen una validación propia bajo las reglas, límites de herramientas, controles internos y responsabilidades legales de una organización concreta.
Razonamiento, multimodalidad y agentes de terminal
Fuera de programación y ciberseguridad también se reportan resultados altos. llm-stats cita 94,6 % en GPQA Diamond y, en Humanity’s Last Exam, 56,8 % sin herramientas y 64,7 % con herramientas.[25] Esa separación importa: permitir o no el uso de herramientas puede cambiar mucho la lectura de una puntuación.
Terminal-Bench requiere todavía más cuidado. llm-stats reporta 92,1 %, pero asociado a una configuración específica: harness Terminus-2, pensamiento adaptativo al máximo, presupuesto de 1 millón de tokens por tarea, timeouts extendidos de 4 horas y actualizaciones de Terminal-Bench 2.1.[25] En benchmarks de agentes, esos detalles no son letra pequeña: el tiempo, el contexto, las herramientas y el presupuesto computacional forman parte de la prueba.
El dato multimodal también debe leerse con prudencia. W&B reporta 59,0 % en una evaluación multimodal interna para Mythos Preview, frente a 27,1 % para Opus 4.6.[6] Además, llm-stats advierte que SWE-bench Multimodal usa una implementación interna y que sus resultados no son directamente comparables con los de rankings públicos.[
25]
Por qué no conviene leer estos scores como una clasificación normal
Hay cuatro límites principales:
-
Acceso restringido. Anthropic indica que Claude Mythos Preview es un modelo de investigación por invitación y sin alta autoservicio.[
13] Eso dificulta que equipos de desarrollo independientes reproduzcan los resultados por su cuenta.
-
Fuentes mixtas. Las fuentes oficiales disponibles respaldan sobre todo el estatus del modelo, su encaje en Project Glasswing y sus áreas de capacidad.[
13][
16][
18] Muchas cifras concretas aparecen en esta recopilación mediante fuentes de terceros.[
6][
9][
25][
27]
-
Configuraciones internas o especiales. El resultado multimodal se presenta como evaluación interna.[
6] Terminal-Bench, por su parte, aparece ligado a un harness, pensamiento adaptativo máximo, un gran presupuesto de tokens y timeouts ampliados.[
25]
-
Alcance específico de las tareas. Cybench incluye, según Authmind, 40 retos CTF; CyberGym evalúa la reproducción dirigida de vulnerabilidades sobre 1.507 tareas reales de software abierto.[
27] Son pruebas importantes, pero no equivalen a todos los usos posibles de un modelo en seguridad.
Conclusión
Claude Mythos Preview aparece como un modelo extraordinariamente fuerte en los benchmarks reportados: 93,9 % en SWE-bench Verified, 87,3 % en SWE-bench Multilingual, 59,0 % en una evaluación multimodal interna, 0,83 en CyberGym y pass@1 = 1,00 en Cybench.[6][
27]
Pero la clave no es solo la altura de las puntuaciones. Anthropic lo presenta como un research preview de Project Glasswing con acceso por invitación, no como un modelo estándar disponible de forma abierta.[13] La lectura más razonable es verlo como una señal muy potente de capacidad en programación, agentes y ciberseguridad defensiva, pero no como una tabla pública plenamente comparable y reproducible.




