Claude Mythos Preview aparece asociado a una cifra llamativa: 93,9% en SWE-bench. Es el dato más citado para hablar de su rendimiento en software, pero conviene leerlo con precisión: SWE-bench evalúa tareas de código, no todas las capacidades posibles de un modelo de IA [1][
2].
La cifra clave: 93,9% en SWE-bench
El resultado central reportado para Claude Mythos Preview es 93,9% en SWE-bench [1][
2]. En la práctica, eso lo vuelve especialmente relevante para comparar rendimiento en tareas de ingeniería de software, corrección de código y flujos de trabajo parecidos a los de un agente de programación [
1].
La cautela importante está en la configuración. Los resultados altos en SWE-bench suelen lograrse cuando el modelo opera como agente: puede leer archivos, ejecutar código, revisar resultados de pruebas e iterar sobre sus intentos [1]. Eso no invalida la cifra; simplemente significa que el número refleja tanto la capacidad del modelo como el entorno de herramientas y evaluación en el que se probó.
Lo que el 93,9% no significa
El 93,9% no debe interpretarse como una nota global de Claude Mythos Preview. Un benchmark de software no mide por sí solo razonamiento general, seguridad, disponibilidad, coste operativo o rendimiento en tareas que no se parezcan a escribir, revisar o modificar código [1].
Para comparaciones serias, la regla es sencilla: comparar modelos dentro del mismo benchmark y con condiciones equivalentes. Si un modelo usa un flujo de agente con acceso a archivos, ejecución de código y múltiples iteraciones, compararlo con otro modelo sin esas herramientas puede llevar a conclusiones engañosas [1].
Benchmarks reportados de Claude Mythos Preview
| Área | Resultado reportado | Lectura recomendada |
|---|---|---|
| Software / SWE-bench | 93,9% | Es la cifra más clara para tareas de programación y agentes de código [ |
| Ciberseguridad | 83,1% vs. 66,6% de Claude Opus 4.6 | Comparación reportada en benchmarks de capacidad de ciberseguridad; no mide lo mismo que SWE-bench [ |
| Cybench | 100% | Reporte secundario sobre retos de ciberseguridad, no una evaluación general del modelo [ |
| Conjunto amplio de benchmarks | Lidera 17 de 18 benchmarks medidos | Afirmación agregada de un reporte sobre datos de Anthropic; conviene revisar el desglose antes de convertirla en ranking general [ |
Software y ciberseguridad son señales distintas
Las métricas de ciberseguridad de Claude Mythos Preview pertenecen a otra categoría. Una fuente reporta 83,1% para Mythos Preview frente a 66,6% de Claude Opus 4.6 en benchmarks de capacidad de ciberseguridad [3]. Otra afirma que Mythos logró 100% en Cybench, descrito como un benchmark de retos de ciberseguridad [
5].
Las fuentes de Anthropic disponibles aquí también se enfocan en ese terreno: Anthropic Red Team publicó una evaluación de capacidades de ciberseguridad de Claude Mythos Preview, y Project Glasswing incluye trabajo sobre identificación de vulnerabilidades y exploits con el modelo [13][
24]. Eso puede ser muy relevante para equipos de seguridad, pero no debe mezclarse con SWE-bench como si todo fuera una sola puntuación.
Cómo usar el dato en una evaluación real
Si tu caso de uso es un agente que trabaja sobre repositorios, corrige código, ejecuta pruebas e itera, el 93,9% en SWE-bench es la cifra más útil para empezar [1][
2]. Si el caso de uso es análisis de vulnerabilidades, revisión de seguridad o investigación de exploits, las métricas y documentos de ciberseguridad son el contexto más apropiado [
3][
5][
13][
24].
El veredicto práctico es: Claude Mythos Preview se reporta con 93,9% en SWE-bench, y esa es la respuesta corta al preguntar por su benchmark más citado [1][
2]. La lectura rigurosa es más estrecha: es una señal fuerte para tareas de software bajo condiciones de evaluación específicas, no una prueba automática de superioridad general en todos los dominios.




