RespuestasPublicadohace 2 mesesLast edited el mes pasado18 fuentes

Cloudflare prueba el modelo de IA Claude Mythos y descubre que puede convertir pequeños fallos en exploits funcionales

Cloudflare evaluó el modelo Claude Mythos Preview de Anthropic en más de 50 repositorios internos y de código abierto, donde la IA logró unir vulnerabilidades menores para formar cadenas de explotación completas. El sistema también fue capaz de generar automáticamente código de prueba de concepto (PoC), compilarlo,...

Buscar y verificar hechos con Studio Global AI Explora más páginas en tendencia

Illustration representing an AI system analyzing code and linking vulnerabilities into an exploit chain — What did Cloudflare find when testing Anthropic’s Claude Mythos Preview on more than 50 internal and open-source code repositories, specificSecurity researchers found Anthropic’s Claude Mythos Preview could link multiple vulnerabilities into working exploit chains during testing on more than 50 repositories.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: What did Cloudflare find when testing Anthropic’s Claude Mythos Preview on more than 50 internal and open-source code repositories, specific. Article summary: Cloudflare tested Mythos Preview as part of Project Glasswing against more than 50 of its own internal and open-source code repositories.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos: Benchmark-Dominating AI with Real Risks. Claude Mythos Preview is Anthropic’s most powerful AI yet, outperforming benchmarks and uncovering critical vulnerabilitie" source context "Claude Mythos: Benchmark-Dominating AI with Real Risks" Reference image 2: visual subject "Artificial Intelligence (AI) company Anthropic announced a new cybersecurity initiative called **Project Gla
openai.com

Cloudflare sometió recientemente a pruebas Claude Mythos Preview, un modelo de inteligencia artificial desarrollado por Anthropic y especializado en investigación de ciberseguridad. La evaluación se realizó sobre más de 50 repositorios de código internos y de código abierto como parte de Project Glasswing, un programa restringido en el que varias organizaciones analizan el potencial del modelo para detectar vulnerabilidades.

El resultado llamó la atención de los investigadores: el sistema no solo detectó fallos en el código, sino que también fue capaz de conectarlos entre sí para crear cadenas de explotación reales y generar automáticamente código de prueba de concepto (PoC). Al mismo tiempo, el experimento reveló limitaciones importantes que muestran lo complejo que resulta aplicar IA avanzada en seguridad informática.

De encontrar fallos a construir ataques completos

La mayoría de herramientas automatizadas de seguridad están diseñadas para identificar vulnerabilidades individuales. Sin embargo, según Cloudflare, Mythos fue más allá.

Al analizar proyectos reales, el modelo pudo:

Detectar varias debilidades de baja gravedad que por separado parecerían poco críticas
Analizar cómo esas debilidades podían interactuar entre sí
Unirlas en una cadena de explotación capaz de crear un vector de ataque real

En otras palabras, la IA no trató cada vulnerabilidad como un problema aislado, sino que razonó sobre cómo un atacante podría combinar varias fallas para lograr un compromiso efectivo del sistema.

Este comportamiento se observó en distintos tipos de código analizados por Cloudflare, incluidos sistemas de ejecución, componentes de red, protocolos y proyectos de código abierto.

Ese tipo de razonamiento —conectar varios "primitivos" de ataque hasta formar un exploit completo— suele requerir investigadores de seguridad con mucha experiencia.

Generación automática de exploits de prueba

Otro hallazgo relevante fue la capacidad del modelo para crear exploits de prueba de concepto de forma autónoma.

Durante las pruebas, Mythos podía:

Escribir código diseñado para activar una vulnerabilidad
Compilarlo y ejecutarlo en un entorno de pruebas
Analizar el resultado
Ajustar su estrategia y volver a intentarlo

Este ciclo iterativo permitió que el modelo pasara de descubrir una vulnerabilidad a demostrar su explotación práctica con muy poca intervención humana.

En el trabajo de seguridad real, generar un PoC es crucial porque confirma si un fallo puede explotarse de verdad. Automatizar ese paso podría reducir significativamente el tiempo necesario para validar y priorizar riesgos.

Señales de capacidades avanzadas

Anthropic también ha descrito otras capacidades observadas durante pruebas internas de Mythos Preview. Entre ellas:

Identificación de vulnerabilidades zero‑day en proyectos reales de código abierto
Ingeniería inversa de técnicas de explotación en software cerrado
Conversión de vulnerabilidades N‑day (fallos conocidos pero no parcheados) en exploits funcionales

Estas características reflejan que el modelo está diseñado específicamente para análisis estructurado de vulnerabilidades y razonamiento sobre explotación, más que para tareas generales de programación.

Limitaciones detectadas en las pruebas

A pesar de sus capacidades, Cloudflare también encontró problemas importantes de fiabilidad y consistencia.

Falsos positivos

En algunos casos, el modelo reportó vulnerabilidades que no eran realmente explotables o estaban mal clasificadas. Los proyectos escritos en lenguajes con gestión manual de memoria, como C o C++, generaron más de estos avisos erróneos, por lo que sigue siendo necesario validar los hallazgos manualmente.

Comportamiento de seguridad irregular

Los investigadores también observaron respuestas inconsistentes del sistema frente a tareas potencialmente peligrosas. En ciertas ocasiones, el modelo identificaba una posible cadena de explotación pero luego se negaba a demostrarla debido a sus controles de seguridad; en otras, avanzaba más antes de detenerse.

Esto muestra lo difícil que resulta equilibrar herramientas útiles para investigación defensiva con protecciones que eviten usos maliciosos.

Por qué estos resultados importan para la ciberseguridad

Las conclusiones del experimento apuntan a un cambio importante en la investigación de vulnerabilidades.

Para los defensores, herramientas como Mythos podrían:

Descubrir cadenas complejas de vulnerabilidades que los escáneres tradicionales no detectan
Validar rápidamente si un fallo es realmente explotable
Priorizar con mayor precisión qué problemas deben corregirse primero

Pero la misma tecnología también genera riesgos. Si un modelo puede pasar de encontrar un bug a producir un exploit funcional automáticamente, el nivel de habilidad necesario para lanzar ataques sofisticados podría reducirse considerablemente.

Cloudflare concluye que parchear software más rápido quizá ya no sea suficiente en un entorno donde la IA acelera tanto el descubrimiento como la explotación de fallos. Las organizaciones podrían necesitar nuevas estrategias de gestión de vulnerabilidades que asuman que los atacantes también tendrán acceso a herramientas similares.

El problema del “doble uso” de la IA

Claude Mythos Preview ilustra un desafío clásico en tecnología: el doble uso.

En manos de defensores, puede ayudar a encontrar y corregir vulnerabilidades antes que los atacantes.
En contextos ofensivos, la misma automatización podría acelerar el desarrollo de exploits.

Por ese motivo, el modelo no está disponible públicamente. Actualmente solo se comparte con organizaciones seleccionadas dentro del programa Project Glasswing, orientado a pruebas de seguridad defensiva.

Las pruebas de Cloudflare sugieren que los modelos de IA están empezando a pasar de simples asistentes de programación a sistemas capaces de descubrir, analizar y explotar vulnerabilidades de forma integral. Ese salto podría transformar tanto la defensa como el ataque en el ámbito de la ciberseguridad en los próximos años.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

La gente también pregunta

¿Cuál es la respuesta corta a "Cloudflare prueba el modelo de IA Claude Mythos y descubre que puede convertir pequeños fallos en exploits funcionales"?

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Las pruebas mostraron limitaciones importantes, como falsos positivos y comportamientos de seguridad inconsistentes al negarse a completar ciertos exploits.

Fuentes

← Back to Trending