El 93,9% no debe interpretarse como una nota global de Claude Mythos Preview. Un benchmark de software no mide por sí solo razonamiento general, seguridad, disponibilidad, coste operativo o rendimiento en tareas que no se parezcan a escribir, revisar o modificar código .
Para comparaciones serias, la regla es sencilla: comparar modelos dentro del mismo benchmark y con condiciones equivalentes. Si un modelo usa un flujo de agente con acceso a archivos, ejecución de código y múltiples iteraciones, compararlo con otro modelo sin esas herramientas puede llevar a conclusiones engañosas .
Las métricas de ciberseguridad de Claude Mythos Preview pertenecen a otra categoría. Una fuente reporta 83,1% para Mythos Preview frente a 66,6% de Claude Opus 4.6 en benchmarks de capacidad de ciberseguridad . Otra afirma que Mythos logró 100% en Cybench, descrito como un benchmark de retos de ciberseguridad
.
Las fuentes de Anthropic disponibles aquí también se enfocan en ese terreno: Anthropic Red Team publicó una evaluación de capacidades de ciberseguridad de Claude Mythos Preview, y Project Glasswing incluye trabajo sobre identificación de vulnerabilidades y exploits con el modelo . Eso puede ser muy relevante para equipos de seguridad, pero no debe mezclarse con SWE-bench como si todo fuera una sola puntuación.
Si tu caso de uso es un agente que trabaja sobre repositorios, corrige código, ejecuta pruebas e itera, el 93,9% en SWE-bench es la cifra más útil para empezar . Si el caso de uso es análisis de vulnerabilidades, revisión de seguridad o investigación de exploits, las métricas y documentos de ciberseguridad son el contexto más apropiado
.
El veredicto práctico es: Claude Mythos Preview se reporta con 93,9% en SWE-bench, y esa es la respuesta corta al preguntar por su benchmark más citado . La lectura rigurosa es más estrecha: es una señal fuerte para tareas de software bajo condiciones de evaluación específicas, no una prueba automática de superioridad general en todos los dominios.
Comments
0 comments