Die claim hield ongeveer één dag stand.
Op 10 juni kondigde de pseudonieme beveiligingsonderzoeker Pliny the Liberator aan dat hij de veiligheidsclassifiers van Fable 5 had omzeild. Hij wist de 120.000 tekens tellende systeemprompt van het model te achterhalen en op GitHub te publiceren, en het model instructies te laten genereren voor exploit-ontwikkeling en scheikundige syntheses. De snelheid van de aanval—binnen 24 tot 48 uur na lancering
—maakte het tot een keerpunt in de oplaaiende discussie of geavanceerde AI effectief met huidige veiligheidsmethoden beheerst kan worden.
Pliny omschreef zijn aanpak als een "pack hunt" (jacht in groepsverband), een gecoördineerde techniek met meerdere agenten in plaats van één slimme prompt. Hij combineerde verschillende vijandige strategieën die elk een steentje bijdroegen aan het omzeilen van de beveiliging:
Het resultaat was een bypass die werkende exploitcode, gedetailleerde chemische synthese-instructies en de volledige systeemprompt opleverde waar Anthropic het Fable 5-model omheen gebouwd had.
Voor de lancering van Fable 5 hanteerde Anthropic een opvallend gedetailleerd veiligheidsverhaal:
De snelle jailbreak ondergroef deze cijfers. Een veiligheidssysteem dat gecertificeerd was na duizenden uren aan vijandige tests, werd in één dag omzeild door een enkele onderzoeker. Dit gebeurde met een methode die niet op een nieuw softwarelek berustte, maar op promptstrategieën die lijken op 'social engineering'—technieken die de classifier-training blijkbaar had gemist.
Het Fable 5-incident staat niet op zichzelf. Het past in een bekend patroon van dezelfde beveiligingsonderzoeker:
Achter dit patroon schuilt een verschuiving in methodologie: "modellen die modellen kraken." In plaats van handmatig toverformules te bedenken, laat de aanvaller een al gekraakt model als autonome agent los op een nieuw doelwit. Deze werkwijze, gebaseerd op meerdere stappen en ontleding, is veel moeilijker te detecteren voor classifiers dan de statische promptaanvallen waarop deze systemen getraind zijn. De bredere onderzoekswereld ziet een vergelijkbare trend. Beveiligingsfirma Repello merkte in een analyse van jailbreak-trends in 2026 op dat de gevaarlijkste aanvallen niet langer bestaan uit één losse prompt, maar uit opeenvolgende, op het oog onschuldige stappen—een omschrijving die opvallend veel lijkt op het 'pack hunt'-model.
De jailbreak van Fable 5 bewijst niet dat Anthropic's veiligheidsclaims loos waren, maar het roept wel ongemakkelijke vragen op over schaalbaarheid. Meer dan 1000 uur aan red-teaming door professionele organisaties kon niet vinden wat één vastberaden, onafhankelijke onderzoeker in minder dan een dag bereikte. Dit verschil suggereert dat de huidige certificeringsprogramma's, hoe rigoureus ook, de diversiteit van de creativiteit in de echte wereld van kwaadwillenden kan onderschatten—vooral wat betreft gecoördineerde, stapsgewijze en op misleiding geïnspireerde aanvalsvormen.
Het roept ook een dilemma op: als de beveiliging van een model robuust genoeg is voor maanden aan gestructureerd testen, maar bezwijkt onder een gecoördineerde multi-agentaanval, wat betekent een 'veiligheidscertificaat' dan nog voor een publiek gelanceerd model? De snelheid en herhaalbaarheid van Pliny's aanpak bij meerdere bedrijven en architecturen suggereren dat de uitdaging niet specifiek is voor één modelontwerp, maar mogelijk een zwakte is van het huidige paradigma van veiligheidsclassifiers op promptniveau.
Comments
0 comments