Ese tipo de razonamiento —conectar varios "primitivos" de ataque hasta formar un exploit completo— suele requerir investigadores de seguridad con mucha experiencia.
Otro hallazgo relevante fue la capacidad del modelo para crear exploits de prueba de concepto de forma autónoma.
Durante las pruebas, Mythos podía:
Este ciclo iterativo permitió que el modelo pasara de descubrir una vulnerabilidad a demostrar su explotación práctica con muy poca intervención humana.
En el trabajo de seguridad real, generar un PoC es crucial porque confirma si un fallo puede explotarse de verdad. Automatizar ese paso podría reducir significativamente el tiempo necesario para validar y priorizar riesgos.
Anthropic también ha descrito otras capacidades observadas durante pruebas internas de Mythos Preview. Entre ellas:
Estas características reflejan que el modelo está diseñado específicamente para análisis estructurado de vulnerabilidades y razonamiento sobre explotación, más que para tareas generales de programación.
A pesar de sus capacidades, Cloudflare también encontró problemas importantes de fiabilidad y consistencia.
En algunos casos, el modelo reportó vulnerabilidades que no eran realmente explotables o estaban mal clasificadas. Los proyectos escritos en lenguajes con gestión manual de memoria, como C o C++, generaron más de estos avisos erróneos, por lo que sigue siendo necesario validar los hallazgos manualmente.
Los investigadores también observaron respuestas inconsistentes del sistema frente a tareas potencialmente peligrosas. En ciertas ocasiones, el modelo identificaba una posible cadena de explotación pero luego se negaba a demostrarla debido a sus controles de seguridad; en otras, avanzaba más antes de detenerse.
Esto muestra lo difícil que resulta equilibrar herramientas útiles para investigación defensiva con protecciones que eviten usos maliciosos.
Las conclusiones del experimento apuntan a un cambio importante en la investigación de vulnerabilidades.
Para los defensores, herramientas como Mythos podrían:
Pero la misma tecnología también genera riesgos. Si un modelo puede pasar de encontrar un bug a producir un exploit funcional automáticamente, el nivel de habilidad necesario para lanzar ataques sofisticados podría reducirse considerablemente.
Cloudflare concluye que parchear software más rápido quizá ya no sea suficiente en un entorno donde la IA acelera tanto el descubrimiento como la explotación de fallos. Las organizaciones podrían necesitar nuevas estrategias de gestión de vulnerabilidades que asuman que los atacantes también tendrán acceso a herramientas similares.
Claude Mythos Preview ilustra un desafío clásico en tecnología: el doble uso.
Por ese motivo, el modelo no está disponible públicamente. Actualmente solo se comparte con organizaciones seleccionadas dentro del programa Project Glasswing, orientado a pruebas de seguridad defensiva.
Las pruebas de Cloudflare sugieren que los modelos de IA están empezando a pasar de simples asistentes de programación a sistemas capaces de descubrir, analizar y explotar vulnerabilidades de forma integral. Ese salto podría transformar tanto la defensa como el ataque en el ámbito de la ciberseguridad en los próximos años.
Comments
0 comments