Odborníci na AI z průmyslu i akademické sféry se v zásadě shodují, že požadavek na nulový počet jailbreaků není při současných metodách dosažitelný . Důvody sahají až k matematickým základům fungování velkých jazykových modelů.
Paradox jailbreaku. Studie z roku 2024 na arXivu (aktualizovaná v květnu 2026) formálně dokázala dva paradoxy: zaprvé není možné sestrojit dokonalý detektor jailbreaků a zadruhé slabší model nemůže konzistentně rozpoznat, zda byl silnější model jailbreaknut . Toto není chyba, kterou by šlo opravit – jde o matematické omezení, které vyplývá ze samotné definice takzvaného alignmentu.
Zbrojní závody, nikoli řešitelný problém. Jailbreaking je z podstaty věci adversariální problém. Útočníci neustále objevují nové vzory promptů, triky s kódováním a strategie pro vedení konverzace, které obcházejí stávající filtry. Jakmile je jedna třída jailbreaků opravena, objevují se nové varianty .
Autonomní škálování jailbreaků. Studie z března 2026 publikovaná v časopise Nature Communications zjistila, že velké uvažovací modely nyní dokáží fungovat jako autonomní agenti pro jailbreaking, přičemž dosahují celkové úspěšnosti 97,14 % u všech testovaných kombinací modelů . Útočná plocha se tedy rozrůstá, nikoli smršťuje.
Shoda odborníků. Bezpečnostní experti tvrdí, že úplné zablokování jailbreaků „by zastavilo všechny nasazení špičkových AI modelů“ – nejde o problém, který by šlo „odladit“, standard je z podstaty věci nedosažitelný .
Tento požadavek nevznikl ve vzduchoprázdnu. Předcházela mu jasná eskalace vládního tlaku na firmu Anthropic:
TechCrunch celou epizodu charakterizoval jako politický krok, který „nikdy nebyl o jailbreaku AI“ – šlo o signál, že vláda je ochotna jednostranně rozhodovat o tom, který AI model je příliš nebezpečný na to, aby fungoval .
Stanovisko Bílého domu, jak ho uvádí řada médií, je, že model Fable 5 se může vrátit, jen pokud společnost znemožní všechny jailbreaky . Není to požadavek na postupné zlepšování nebo zavedení stupňovitého řízení zranitelností. Je to absolutní binární podmínka: buď neexistuje žádný jailbreak, nebo model nemůže být nasazen
.
Anthropic oponoval s tím, že „žádní testeři dosud nebyli schopni najít univerzální jailbreak“ a že úplné zabránění všem jailbreakům není možné pro ně ani pro žádnou jinou společnost . Firma také uvedla, že „dokonce neobdržela ani informaci o znepokojivém neuniverzálním potenciálním jailbreaku, který by vedl k nějakému škodlivému výsledku“
.
Podle zpráv z řady médií stojí Anthropic před třemi hlavními strategickými cestami:
1. Shoda a vyjednávání. Generální ředitel Dario Amodei se 15. června sešel s představiteli Bílého domu, aby vyjednal vzájemně přijatelný rámec pro hodnocení zranitelností – který by nahradil absolutní požadavek na nulový jailbreak stupňovitým standardem závažnosti . Bílý dům a Anthropic údajně spolupracují na rámci pro hodnocení závažnosti bezpečnostních zranitelností
. Toto je cesta, kterou se Anthropic v současnosti zřejmě ubírá.
2. Soudní nebo politická výzva. Anthropic by mohl napadnout exportní omezení u soudu s argumentem, že vláda překročila své zákonné pravomoci nebo porušila právo na řádný proces tím, že uplatnila exportní kontroly zpětně na veřejně dostupný komerční produkt . Šlo by o vysoce rizikový krok s potenciálem vytvořit zásadní právní precedens.
3. Restrukturalizace nebo přesun aktivit. Anthropic by mohl omezit vydávání modelů na jurisdikce s předvídatelnějším regulačním prostředím, nebo by mohl změnit svou firemní strukturu tak, aby oddělil produkty určené pro USA od globálních. Někteří analytici to popisují jako „jadernou variantu“, která by zásadně změnila obchodní model Anthropicu.
Tento spor krystalizuje tři zásadní napětí, která budou definovat budoucnost špičkových AI modelů:
Technická realita vs. regulační absolutismus. Vláda požaduje garanci – nulový počet jailbreaků – kterou počítačová věda označuje za nemožnou . Pokud administrativa na tomto standardu setrvá, bude mít de facto právo veta nad vydáním jakéhokoli špičkového modelu, protože žádné vývojové centrum nemůže tento požadavek splnit.
Exportní kontroly na veřejný software. Poprvé USA uplatnily exportní kontroly na komerční AI model, který byl již veřejně přístupný . Vytváří se tím precedens, že lze kterékoli AI laboratoři přes noc nařídit vypnutí produktu na základě jednostranného rozhodnutí o národní bezpečnosti.
Nezávislost vs. faktický dohled. Anthropic byl založen s posláním zaměřeným na bezpečnost a nezávislost. Zásah Bílého domu ukazuje, že i ty „nejodpovědnější“ laboratoře mohou být donuceny k plnění technicky nereálných vládních standardů – nebo jim bude jejich produkt jednoduše vypnut . Jak napsal Bloomberg, tento blok je „varováním pro Silicon Valley“ a znamená, že éra samoregulovaného nasazování špičkových AI modelů může být u konce
.
Comments
0 comments