Den påstanden holdt i omtrent ett døgn.
Den 10. juni annonserte den pseudonyme «rød lag»-operatøren Pliny the Liberator at han hadde omgått Fable 5s sikkerhetsklassifikatorer, hentet ut systemprompten på 120 000 tegn (som han publiserte på GitHub), og fått modellen til å generere kode for utnyttelse av sårbarheter, steg-for-steg-guider for dataangrep og veiledning i begrenset kjemi . Hastigheten på omgåelsen – innen 24 til 48 timer etter lansering
– markerte et vendepunkt i den eskalerende offentlige debatten om hvorvidt dagens sikkerhetsmetoder faktisk kan styre de mest avanserte KI-modellene.
Pliny beskrev tilnærmingen sin som en «pack hunt», en koordinert teknikk med flere KI-agenter, snarere enn et enkelt, smart skrevet spørsmål . Angrepet kombinerte flere fiendtlige strategier som hver bidro til en kumulativ omgåelse:
Resultatet var et jailbreak som produserte fungerende kode for sårbarheter, detaljerte instruksjoner for kjemi-syntese, og hele systemprompten som Anthropic hadde bygget Fable 5 rundt .
Før Fable 5 ble sluppet, hadde Anthropic lagt frem en uvanlig detaljert offentlig sikkerhetsplan:
Det raske jailbreaket undergravde disse tallene direkte. Et sikkerhetssystem sertifisert gjennom over tusen timer med fiendtlig testing ble omgått av én enkelt forsker på under et døgn – ved bruk av teknikker som ikke støttet seg på noen nyskapende programvaresårbarhet, men på sosiale manipuleringsstrategier som klassifikatortreningen tilsynelatende hadde oversett .
Fable 5-episoden er ikke et isolert tilfelle. Den forlenger et veldokumentert mønster fra den samme «rød lag»-operatøren:
Under dette mønsteret ligger et skifte i metodikk som Pliny selv har beskrevet som «modeller som knekker modeller» . I stedet for å håndskrive magiske enkeltprompt, slipper angriperen én allerede knekt modell løs som en autonom agent mot et nytt mål. Denne agentiske, fler-trinns tilnærmingen basert på dekomponering har vist seg langt vanskeligere for klassifikatorbaserte sikkerhetssystemer å oppdage enn de statiske angrepene systemene i stor grad ble trent for å fange opp.
Det bredere forskningsmiljøet har observert en lignende utvikling. Sikkerhetsfirmaet Repello bemerket i sin analyse av jailbreak-trender i 2026 at de mest operasjonelt farlige angrepene ikke lenger er enkeltprompt-jailbreaks, men fler-trinns fiendtlige sekvenser som går gjennom tilsynelatende uskyldige mellomsteg – en beskrivelse som passer svært godt med «pack hunt»-rammeverket .
Fable 5-jailbreaket beviser ikke at Anthropics sikkerhetspåstander var tomme, men det bringer ubehagelige spørsmål til overflaten om skalerbarhet. Over 1000 timer med «rød lag»-testing av profesjonelle organisasjoner mislyktes i å finne det én målrettet, uavhengig forsker klarte på under ett døgn. Gapet antyder at dagens sertifiseringsprogrammer, uansett hvor rigorøse, systematisk kan underrepresentere mangfoldet av kreativitet i virkelige fiendtlige angrep – spesielt rundt agentiske, fler-trinns tilnærminger inspirert av sosial manipulasjon.
Det reiser også et dilemma: Hvis en modells sikkerhetsmurer er robuste nok til å motstå måneder med strukturert testing, men kollapser når de møter et koordinert multi-agent-angrep, hva betyr da egentlig «sikkerhetssertifisert» for banebrytende modeller som slippes offentlig? Hastigheten og repeterbarheten i Plinys mønster på tvers av flere selskaper og arkitekturer antyder at utfordringen ikke er spesifikk for én enkelt modelldesign, men kan være endemisk for dagens paradigme med sikkerhetsklassifikatorer på promptnivå.
Comments
0 comments