Según los evaluadores, uno de los puntos fuertes de Mythos es precisamente conectar todas estas etapas en una secuencia coherente, en lugar de resolver problemas aislados de seguridad.
La documentación de pruebas internas de Anthropic también afirma que el modelo puede:
Aunque estas afirmaciones proceden del propio fabricante y deben interpretarse con cautela, las evaluaciones independientes respaldan la idea de que los modelos de IA más avanzados están mejorando rápidamente en la detección de fallos de seguridad y en el razonamiento sobre rutas de ataque complejas.
A pesar de estos avances, la evidencia disponible no indica que Mythos pueda gestionar por sí solo la seguridad de un sistema real.
Los investigadores gubernamentales destacan que sus evaluaciones se basan en un conjunto limitado de pruebas técnicas, no en una simulación completa del trabajo operativo de ciberseguridad.
En la práctica, siguen siendo necesarias habilidades humanas en varios puntos críticos:
Si estos pasos no se realizan con criterio humano, una IA puede generar grandes volúmenes de posibles vulnerabilidades que luego deben verificarse manualmente.
Además, los sistemas reales incluyen elementos difíciles de reproducir en un laboratorio: registros ruidosos, documentación incompleta, restricciones de acceso o interacciones inesperadas entre sistemas.
Otro hallazgo importante de las pruebas independientes es que Mythos no parece estar solo en la frontera tecnológica.
El AISI también evaluó el modelo GPT‑5.5 en tareas de ciberseguridad y encontró niveles de rendimiento similares en varias pruebas.
Informes basados en esas evaluaciones indican que GPT‑5.5 logró aproximadamente un 71,4 % de éxito en las tareas más difíciles del nivel “Expert”, frente al 68,6 % de Mythos.
En la simulación de ataque a red corporativa de 32 pasos:
Estos resultados sugieren que el panorama competitivo evoluciona rápidamente. En muchos casos, la diferencia práctica entre modelos podría depender más de coste, acceso, herramientas disponibles o integración con flujos de trabajo que de la potencia pura del modelo.
Muchos titulares sobre IA y ciberseguridad proceden de entornos de prueba cuidadosamente diseñados.
Estos benchmarks son útiles para medir progreso, pero no siempre reflejan la complejidad del mundo real. Normalmente incluyen:
Este tipo de entorno puede favorecer a modelos con buena capacidad de razonamiento estructurado, pero subestimar problemas comunes en la práctica, como el contexto incompleto o los falsos positivos.
Investigaciones sobre las capacidades de ciberseguridad de la IA también han observado que el progreso no siempre sigue una curva suave. En algunos casos, modelos más pequeños o sistemas especializados pueden igualar a modelos grandes en tareas concretas, lo que algunos investigadores describen como una frontera tecnológica “irregular” o “dentada”.
Por eso, muchos expertos consideran los benchmarks como señales de capacidad, no como prueba de autonomía fiable en entornos reales.
A pesar de estas limitaciones, organizaciones de todo el mundo están intentando acceder a sistemas como Mythos.
El sector financiero es uno de los más interesados. Informes recientes señalan que los tres mayores bancos de Japón —Mitsubishi UFJ Financial Group, Mizuho Financial Group y Sumitomo Mitsui Financial Group— podrían obtener acceso al modelo para prepararse ante amenazas cibernéticas impulsadas por IA.
Las autoridades japonesas también han iniciado debates con los principales bancos del país y han puesto en marcha revisiones sobre los riesgos que estas tecnologías podrían representar para la infraestructura financiera.
En paralelo, bancos y reguladores de otras regiones están explorando sistemas similares porque quieren herramientas capaces de encontrar vulnerabilidades antes que los atacantes.
El Centro Nacional de Ciberseguridad del Reino Unido (NCSC) advierte que los modelos de IA más avanzados ya muestran utilidad en tareas como detectar vulnerabilidades zero‑day o resolver desafíos criptográficos, lo que podría cambiar la velocidad y el coste de las operaciones cibernéticas.
Una razón clave para esta urgencia es la rapidez con la que están avanzando estas capacidades.
Según el AI Security Institute, la longitud de las tareas de ciberseguridad que los modelos pueden completar de forma autónoma se ha duplicado aproximadamente cada pocos meses en su conjunto de evaluaciones.
Modelos recientes —incluidos Mythos y GPT‑5.5— han superado incluso esas tendencias anteriores, lo que sugiere que el progreso podría estar acelerándose.
Esto crea una dinámica parecida a una carrera armamentística:
La interpretación más prudente de la evidencia actual es clara: Mythos es una herramienta de IA muy potente para descubrir vulnerabilidades y experimentar con ciberataques, pero no es un defensor autónomo capaz de gestionar la seguridad por sí solo.
Las pruebas independientes muestran que los modelos más avanzados ya pueden encadenar tareas complejas de ciberseguridad y, en algunos casos, completar simulaciones de ataques realistas. Sin embargo, todavía tienen dificultades con partes esenciales del trabajo: evaluar la gravedad real de los fallos, validar exploits en sistemas reales y tomar decisiones operativas.
Igualmente importante: Mythos no parece estar solo en esta frontera tecnológica. Otros modelos avanzados ya muestran capacidades comparables en algunas evaluaciones.
Para gobiernos, bancos y operadores de infraestructuras críticas, el mensaje es claro: la adopción de herramientas de ciberseguridad impulsadas por IA ya ha comenzado, y esperar demasiado podría significar descubrir las vulnerabilidades solo después de que lo hagan los atacantes.
Comments
0 comments