AI-forskare från både industri och akademi är i stort sett överens om att ett ”noll-jailbreak”-krav inte går att uppnå med nuvarande metoder . Orsakerna ligger i de matematiska grunderna för hur stora språkmodeller fungerar.
Jailbreak-paradoxen. En artikel på arXiv från 2024 (uppdaterad maj 2026) bevisade formellt två paradoxer: för det första är det omöjligt att konstruera en perfekt jailbreak-klassificerare, och för det andra kan en svagare modell inte konsekvent upptäcka om en starkare modell har jailbreakats . Detta är inte en bugg som kan åtgärdas – det är en matematisk begränsning som är inbyggd i hur ”alignment” definieras.
En evig kapprustning. Jailbreaking är i grunden ett adversarialt problem. Angripare upptäcker kontinuerligt nya promptmönster, kodningstricks och flerstegsstrategier som kringgår befintliga filter. Så snart en typ av jailbreak är blockerad dyker nya varianter upp .
Autonoma jailbreak-agenter. En studie från mars 2026 publicerad i Nature Communications visade att stora resonemangsmodeller nu kan fungera som autonoma jailbreak-agenter, med en total framgångsfrekvens på 97,14 procent över alla testade modellkombinationer . Attackytan växer, inte minskar.
Expertkonsensus. Säkerhetsexperter säger att ett heltäckande block av jailbreaks ”skulle stoppa alla lanseringar av frontmodeller” – standarden är inte ett mål som kan uppnås, utan ett bevis på en omöjlighet .
Detta krav uppstod inte i ett vakuum. Det följer en tydlig båge av ökande statligt tryck på Anthropic:
Tidigare konflikt med Pentagon. Anthropic var redan i en tvist med den amerikanska regeringen om sina interaktioner med Pentagon, som hade klassificerat företaget som en ”försörjningskedjerisk” och uppmanat federala myndigheter att begränsa eller upphöra med användningen av dess produkter .
Amazon som utlösande faktor. Amazons vd Andy Jassy ska enligt uppgift ha varnat Vita huset för specifika säkerhetsproblem med Fable 5, vilket påskyndade administrationens ingripande . Minst fem andra företag ska också ha larmat
.
Den plötsliga avstängningen. Klockan 17:21 ET den 12 juni fick Anthropic brevet från handelsdepartementet. Vid ungefär klockan 22 var båda modellerna avstängda för alla kunder världen över – första gången USA tillämpade exportkontroll på en kommersiell AI-modell som redan var i allmänt bruk .
Noll-jailbreak-ultimatumet. Efter avstängningen eskalerade Vita huset från ett exportrestriktion till att införa en tekniskt omöjlig säkerhetsstandard som ett förhandsvillkor för framtida lanseringar .
TechCrunch beskrev hela händelsen som ett politiskt drag som ”aldrig handlade om en AI-jailbreak” – en signal om att regeringen är villig att ensidigt avgöra när en AI-modell är för farlig för att användas .
Vita husets position, enligt flera medier, är att Anthropics modell Fable 5 bara kan återvända om företaget gör jailbreaks omöjliga . Detta är inte en begäran om gradvisa förbättringar eller en nivåindelad sårbarhetshanteringsprocess – det är ett binärt krav: antingen finns inga jailbreaks någonstans, eller så kan modellen inte lanseras
.
Anthropic har invänt och sagt att ”inga testare har ännu kunnat hitta en universell jailbreak” och att ett totalt undvikande av alla jailbreaks inte är möjligt för dem eller något annat företag . Företaget har också påpekat att man ”inte ens har fått information om en oroande icke-universell potentiell jailbreak som har lett till ett skadligt resultat”
.
Baserat på rapportering från flera medier står Anthropic inför tre övergripande strategiska vägar:
1. Efterlevnad och förhandling. Vd Dario Amodei träffade Vita husets tjänstemän den 15 juni för att förhandla fram en ömsesidigt acceptabel ram för sårbarhetsbedömning – en som ersätter det absoluta noll-jailbreak-kravet med en nivåindelad allvarlighetsstandard . Vita huset och Anthropic samarbetar enligt uppgift om ett ramverk för att utvärdera allvarlighetsgraden av säkerhetsbrister
. Detta är den väg som Anthropic för närvarande verkar följa.
2. Rättslig eller politisk utmaning. Anthropic skulle kunna överklaga exportkontrollerna i domstol och hävda att regeringen överskridit sin lagstadgade befogenhet eller brutit mot rättssäkerhetsprinciper genom att tillämpa exportkontroll retroaktivt på en offentligt tillgänglig kommersiell produkt . Detta skulle vara ett högriskmoment som skulle kunna sätta en milstolpeprejudikat.
3. Omstrukturering eller flytt av verksamhet. Anthropic skulle kunna begränsa modellanseringar till jurisdiktioner med mer förutsägbara regelverk, eller omstrukturera sin företagsstruktur för att separera USA-riktade produkter från globala produkter. Vissa analytiker beskriver detta som ”kärnvapenalternativet” som skulle förändra Anthropics affärsmodell i grunden.
Denna tvist belyser tre grundläggande spänningar som kommer att definiera framtiden för front-AI:
Teknisk verklighet kontra regulatorisk absolutism. Regeringen kräver en garanti – noll jailbreaks – som datavetenskapen säger är omöjlig . Om administrationen insisterar på denna standard har den i praktiken vetorätt mot alla lanseringar av frontmodeller, eftersom inget labb kan uppfylla kravet.
Exportkontroll på offentlig programvara. För första gången har USA tillämpat exportkontroll på en kommersiell AI-modell som redan var offentligt tillgänglig . Detta sätter en prejudikat att alla AI-labb kan beordras att stänga ner en produkt över en natt baserat på ett ensidigt nationellt säkerhetsbeslut.
Oberoende kontra faktisk tillsyn. Anthropic grundades med en missionsdriven betoning på säkerhet och oberoende. Vita husets agerande visar att även de mest ”ansvarsfulla” labben kan tvingas följa tekniskt orealistiska regeringskrav – eller få sina produkter helt enkelt avstängda . Som Bloomberg uttryckte det markerar blocket en ”vändning från USA:s sida” och en ”varning till Silicon Valley” om att eran av självreglerad front-AI-lansering kan vara över
.
Comments
0 comments