El 93,9% no debe interpretarse como una nota global de Claude Mythos Preview. Un benchmark de software no mide por sí solo razonamiento general, seguridad, disponibilidad, coste operativo o rendimiento en tareas que no se parezcan a escribir, revisar o modificar código [1].
Para comparaciones serias, la regla es sencilla: comparar modelos dentro del mismo benchmark y con condiciones equivalentes. Si un modelo usa un flujo de agente con acceso a archivos, ejecución de código y múltiples iteraciones, compararlo con otro modelo sin esas herramientas puede llevar a conclusiones engañosas [1].
| Área | Resultado reportado | Lectura recomendada |
|---|---|---|
| Software / SWE-bench | 93,9% | Es la cifra más clara para tareas de programación y agentes de código [ |
| Ciberseguridad | 83,1% vs. 66,6% de Claude Opus 4.6 | Comparación reportada en benchmarks de capacidad de ciberseguridad; no mide lo mismo que SWE-bench [ |
| Cybench | 100% | Reporte secundario sobre retos de ciberseguridad, no una evaluación general del modelo [ |
| Conjunto amplio de benchmarks | Lidera 17 de 18 benchmarks medidos | Afirmación agregada de un reporte sobre datos de Anthropic; conviene revisar el desglose antes de convertirla en ranking general [ |
Las métricas de ciberseguridad de Claude Mythos Preview pertenecen a otra categoría. Una fuente reporta 83,1% para Mythos Preview frente a 66,6% de Claude Opus 4.6 en benchmarks de capacidad de ciberseguridad [3]. Otra afirma que Mythos logró 100% en Cybench, descrito como un benchmark de retos de ciberseguridad [
5].
Las fuentes de Anthropic disponibles aquí también se enfocan en ese terreno: Anthropic Red Team publicó una evaluación de capacidades de ciberseguridad de Claude Mythos Preview, y Project Glasswing incluye trabajo sobre identificación de vulnerabilidades y exploits con el modelo [13][
24]. Eso puede ser muy relevante para equipos de seguridad, pero no debe mezclarse con SWE-bench como si todo fuera una sola puntuación.
Si tu caso de uso es un agente que trabaja sobre repositorios, corrige código, ejecuta pruebas e itera, el 93,9% en SWE-bench es la cifra más útil para empezar [1][
2]. Si el caso de uso es análisis de vulnerabilidades, revisión de seguridad o investigación de exploits, las métricas y documentos de ciberseguridad son el contexto más apropiado [
3][
5][
13][
24].
El veredicto práctico es: Claude Mythos Preview se reporta con 93,9% en SWE-bench, y esa es la respuesta corta al preguntar por su benchmark más citado [1][
2]. La lectura rigurosa es más estrecha: es una señal fuerte para tareas de software bajo condiciones de evaluación específicas, no una prueba automática de superioridad general en todos los dominios.
Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Anthropic is not planning on publicly releasing it, but its Mythos model leads in 17 of 18 benchmarks, according to data in Anthropic’s model’s system card. Anthropic says Mythos is its “most capab...
Interested readers can read the later section on Turning N-Day Vulnerabilities into Exploitsfor two examples of sophisticated and clever exploits that Mythos Preview was able to write fully autonomously targeting already-patched bugs that are equally comple...
IntroductionCybersecurity in the age of AIIdentifying vulnerabilities and exploits with Claude Mythos PreviewPlans for Project Glasswing. We have already seen the serious consequences of cyberattacks for important [corporate networks](
Comments
0 comments