Till skillnad från en enkel, smart formulerad prompt – en "magisk nyckel" – var tekniken Pliny använde en orkestrerad, flerstegsmanöver med en AI-agent som operatör. Själva begreppet "pack hunt" är viktigt: i stället för att själv sitta och mejsla fram attacker lät Pliny en redan knäckt version av Anthropics tidigare flaggskepp, Claude Opus 4.8, styra angreppet . Det är själva sinnebilden av vad säkerhetsbranschen beskriver som ett paradigmskifte – från manuell prompt-konst till agentiska, automatiserade och mångstegsmetoder
.
Attacken byggde på fyra ben:
Utöver detta har Pliny vid tidigare attacker förklarat hur man kan utnyttja så kallade "artifact-renders" – ett mer brusigt tolkningsläge för AI:n som uppstår när den genererar kodstommar – för att gradvis, nästan diskret, stegra allvaret i sina frågor utan att trigga larm .
Före lanseringen av Fable 5 hade Anthropic lagt ut en ovanligt detaljerad säkerhetsredovisning:
Men som den omedelbara jailbreak-attacken visade var siffrorna bedrägliga. Ett system som certifierats efter över tusen timmars standardiserad testning slogs ut av en enda kreativ, agentdriven metodik som de konventionella testerna inte fångat upp. Inga mjukvarubuggar, inga kryphål i operativsystem – det var en social ingenjörskonst i promptform som låg bakom .
Det här var inte första gången Pliny knäckte ett toppmodell på dagar eller timmar. Ett tydligt spår har mejslats ut de senaste månaderna:
Gemensamt för samtliga attacker är just denna förskjutning mot vad Pliny själv beskriver som "modeller som jailbreakar modeller" . Istället för att själv hitta på knep, lösgör han en tränad AI-agent på målet och låter den på egen hand utforska, bryta ner och ta över. Säkerhetsföretaget Repellos analyser från 2026 bekräftar att den här typen av stegvisa, agentiska flervarvsattacker nu utgör det största reella säkerhetshotet mot stora språkmodeller – betydligt farligare än de engångsprompter som länge dominerat i jailbreak-sammanhang
.
Claude Fable 5-incidenten visar inte att Anthropics säkerhetsarbete varit falskt eller oviktigt. Men den väcker en stor, existentiell fråga om dagens certifieringssystem. Tusen timmars professionell testning lyckades inte återskapa vad en enda uppfinningsrik och uthållig individ lyckades med på en dag. Gapet tycks ligga i metodvalet: dagens standardiserade tester är skickliga på att stoppa den gamla sortens prompt-baserade angrepp, men underpresterar dramatiskt när angreppet sker genom orkestrerade flerstegsmanövrar med agentisk prägel.
När en modells skyddsräcken klarar månader av rigorösa stresstester men faller ihop inför en koordinerad "packjakt", vad betyder då stämpeln "säkerhetscertifierad" för allmänt tillgängliga toppmodeller? Plinys upprepade mönster – över olika företag och modellarkitekturer – antyder att det här inte är ett tillfälligt problem med just Anthropics system. Det pekar mot något djupare: att dagens paradigm med promptnivå-baserade säkerhetsfilter har en blind fläck som kommer att bli svår att åtgärda så länge agentiska AI-attacker fortsätter att utvecklas i samma rasande fart som modellerna själva.
Comments
0 comments