La ventaja más clara de Mythos está en tareas de largo recorrido: descubrir vulnerabilidades, explotarlas, hacer ingeniería inversa y completar intrusiones simuladas que exigen planificar, usar herramientas y encadenar varios pasos. AISI subrayó tanto pruebas tipo capture the flag, conocidas como CTF, como simulaciones de ataque en varias etapas, y situó a Mythos dentro de una tendencia más amplia: el rendimiento de los modelos en ciberseguridad está mejorando con rapidez .
El informe de red team de Anthropic va más lejos. La compañía afirma que Mythos rinde con fuerza en tareas de ciberseguridad y describe hallazgos de vulnerabilidades zero-day en bases de código open source reales, explotación mediante ingeniería inversa en software de código cerrado y conversión de vulnerabilidades N-day —fallos ya conocidos pero no siempre parcheados— en exploits funcionales . Al mismo tiempo, el propio informe advierte de que el detalle público es limitado porque más del 99% de las vulnerabilidades encontradas aún no habían sido corregidas, lo que impide que lectores externos inspeccionen la mayoría de los ejemplos
.
El argumento a favor de los modelos baratos no es que sistemas pequeños de pesos abiertos igualen a Mythos como agentes autónomos. Es más matizado: la capacidad ciber puede ser irregular. Un modelo puede flojear en unas tareas y, aun así, resultar sorprendentemente útil en un análisis de vulnerabilidad estrecho y bien planteado. En las pruebas de Aisle, modelos pequeños, baratos y de pesos abiertos recuperaron buena parte del mismo análisis en vulnerabilidades seleccionadas de la presentación de Mythos, una vez aislado el código relevante .
Tom’s Hardware resumió el debate posterior de forma parecida: Mythos podría estar entre los modelos de IA más fuertes para ciberseguridad en conjunto, pero modelos más baratos pueden alcanzar resultados similares en algunas tareas de búsqueda de exploits y parcheo, con dudas todavía abiertas sobre fiabilidad y disponibilidad .
La diferencia importa. Igualar un resultado de análisis de código ya preparado no equivale a navegar de forma autónoma por una red, encadenar pasos, explotar una vulnerabilidad y completar una intrusión simulada. La evidencia pública respalda con más fuerza la ventaja de Mythos en esos flujos largos y agentivos .
La mejor explicación disponible no es únicamente el modelo base. Es el modelo más el sistema que lo rodea: herramientas, entorno de ejecución, permisos, selección de contexto, prompts, andamiaje de agente y revisión por especialistas. Aisle lo formuló de manera explícita: el foso no sería el modelo por sí solo, sino el sistema en el que se incorpora experiencia profunda en seguridad . La evaluación de AISI también refuerza esa lectura, porque el comportamiento más potente de Mythos se observó en condiciones controladas, con instrucciones concretas y acceso de red
.
El acceso también forma parte de la historia. Bain describe Claude Mythos Preview como un modelo frontera con capacidades de ciberseguridad lo bastante serias como para que Anthropic restringiera su lanzamiento a un programa de socios verificados llamado Project Glasswing . Por eso, la comparación práctica no es simplemente qué API pública cuesta menos, sino qué parte del flujo completo puede recrearse con modelos, herramientas y conocimiento experto disponibles
.
No existe un benchmark público, limpio y comparable, que mida precio-rendimiento entre Mythos, API de bajo coste y modelos de pesos abiertos bajo condiciones idénticas. AISI evaluó Mythos en entornos controlados y lo comparó con el avance de modelos frontera previos . Anthropic aporta evidencia detallada, pero producida por el propio desarrollador
. Aisle ofrece una contraprueba más estrecha sobre vulnerabilidades seleccionadas
. Esas fuentes responden preguntas relacionadas, pero no idénticas.
La comparación que falta tendría que mantener constantes el acceso a herramientas, el contexto de código, los permisos de red, el número de intentos, el presupuesto de cómputo, las reglas para ejecutar exploits y el grado de revisión humana. Sin eso, las afirmaciones fuertes en cualquiera de las dos direcciones son prematuras .
Las capacidades ciber de Claude Mythos parecen excepcionales allí donde importan la autonomía y la ejecución de varios pasos. Pero el registro público no prueba que su razonamiento de ciberseguridad sea único o inaccesible para modelos más baratos. La conclusión más prudente es que Mythos tiene una ventaja real en flujos ciber complejos, mientras que modelos de menor coste pueden cubrir partes sorprendentes del análisis acotado si se combinan con buen tooling y supervisión experta .
Comments
0 comments