Esa afirmación se mantuvo en pie aproximadamente un día.
El 10 de junio, el 'red-teamer' conocido bajo el pseudónimo de Plinio el Libertador (Pliny the Liberator) anunció que había sorteado los clasificadores de seguridad de Fable 5, extraído su 'prompt' de sistema de 120.000 caracteres (que publicó en GitHub) y conseguido que el modelo generara código para desarrollar exploits, pasos para ataques de ciberseguridad y guías de química restringida . La velocidad de la burla —entre 24 y 48 horas tras el lanzamiento
— lo convirtió en un punto de inflexión en el creciente debate público sobre si la IA de frontera puede ser gobernada de manera efectiva con los métodos de seguridad actuales.
Plinio describió su estrategia como una "cacería en manada" (pack hunt), una técnica coordinada con múltiples agentes en lugar de un único 'prompt' ingenioso . El ataque combinó varias estrategias adversarias donde cada una aportaba una pieza a una burla acumulativa:
El resultado fue una burla que produjo código de explotación funcional, instrucciones detalladas de síntesis química y el 'prompt' de sistema completo que rodeaba a Fable 5 .
Antes del lanzamiento de Fable 5, Anthropic había detallado una postura de seguridad pública inusualmente minuciosa:
El rápido jailbreak echó por tierra estas cifras. Un sistema de seguridad certificado por más de mil horas de pruebas adversarias fue burlado por un único investigador en el plazo de un día, usando técnicas que no se basaban en ninguna vulnerabilidad de software novedosa, sino en estrategias de 'prompting' al estilo de la ingeniería social que el entrenamiento de los clasificadores aparentemente había pasado por alto .
El incidente de Fable 5 no es un hecho aislado. Continúa un patrón bien documentado del mismo 'red-teamer':
En la base de este patrón hay un cambio de metodología que el propio Plinio ha descrito como "modelos burlando modelos" . En lugar de crear manualmente 'prompts' mágicos de un solo disparo, el atacante lanza un modelo ya burlado como un agente autónomo contra un nuevo objetivo. Este enfoque agéntico, de múltiples turnos y basado en la descomposición, ha demostrado ser mucho más difícil de detectar para los sistemas de seguridad basados en clasificadores que los ataques con 'prompts' estáticos para los que esos sistemas fueron entrenados principalmente.
La comunidad de investigación más amplia ha observado una evolución similar. La firma de seguridad Repello, analizando las tendencias de jailbreak durante 2026, señaló que los ataques operacionalmente más peligrosos ya no son los jailbreaks de un solo 'prompt', sino las secuencias adversarias de múltiples turnos que avanzan a través de pasos intermedios aparentemente benignos, una descripción que encaja estrechamente con el marco de la "cacería en manada" .
El jailbreak de Fable 5 no prueba que las afirmaciones de seguridad de Anthropic fueran vacías, pero sí saca a la luz preguntas incómodas sobre la escalabilidad. Más de 1.000 horas de 'red-teaming' por parte de organizaciones profesionales no lograron encontrar lo que un solo investigador independiente y decidido consiguió en menos de un día. La brecha sugiere que los programas de certificación actuales, por muy rigurosos que sean, pueden infra representar sistemáticamente la diversidad de la creatividad adversaria del mundo real, especialmente en lo que respecta a los enfoques agénticos, de múltiples turnos e inspirados en la ingeniería social.
También plantea un dilema: si las barreras de protección de un modelo son lo suficientemente robustas como para resistir meses de pruebas estructuradas, pero se derrumban ante un ataque coordinado de múltiples agentes, ¿qué significa realmente estar "certificado como seguro" para los modelos de frontera que se lanzan públicamente? La velocidad y la repetibilidad del patrón de Plinio a través de múltiples empresas y arquitecturas sugieren que el desafío no es específico de ningún diseño de modelo en particular, sino que puede ser endémico al paradigma actual de los clasificadores de seguridad a nivel de 'prompt'.
Comments
0 comments