AnswersPublished3 days agoLast edited 3 days ago32 sources

„Příliš bezpečný na použití“: Bezpečnostní výzkumníci kritizují model Claude Fable 5 za ochromující restrikce a tajné přesměrování

Bezpečnostní výzkumníci kritizují model Claude Fable 5 od Anthropicu, protože jeho bezpečnostní filtry agresivně blokují i nevinné dotazy související s kyberbezpečností a tajně přesměrovávají požadavky na slabší model... Jádrem sporu je mechanismus, který požadavky na kyberbezpečnost, biologii, chemii a „destilaci“...

Search & fact-check with Studio Global AI Browse more Trending pages

27K0

A conceptual illustration of a locked digital shield representing AI safety guardrails, with glowing data streams being filtered and diverted, set against a dark cybersecurity-them — What is causing cybersecurity professionals to criticize Anthropic's Claude Fable 5, and how does the model's safety guardrail system work,Anthropic's Claude Fable 5 uses aggressive, silent guardrails to keep its most powerful capabilities out of public hands, a move that has sparked intense debate in the cybersecurity community.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What is causing cybersecurity professionals to criticize Anthropic's Claude Fable 5, and how does the model's safety guardrail system work,. Article summary: Anthropic released Claude Fable 5 on June 9, 2026 as a guardrailed public version of its powerful Mythos-class model, alongside an unrestricted twin, Claude Mythos 5, available only to vetted partners through Project Gla. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Claude Fable 5: Why Anthropic Put Its Most Powerful AI Behind Guardrails. * Anthropic released Claude Fable 5 on 9 June 2026. It is the first publicly available Mythos-class mode" source context "Claude Fable 5: Anthropic Locks Down Cyber and Bio" Reference image 2: visual subject "# Anthropic says these topics
openai.com

Společnost Anthropic vydala 9. června 2026 model Claude Fable 5, svůj dosud nejvýkonnější model zpřístupněný veřejnosti. Uvedení ale okamžitě vyvolalo ostrou kritiku ze strany komunity kyberbezpečnostních expertů. Zatímco firma prezentuje tento krok jako zodpovědné zpřístupnění své technologie třídy Mythos, bezpečnostní profesionálové tvrdí, že zabudované záchranné brzdy jsou tak agresivní, že model je pro legitimní výzkum a obrannou práci prakticky nepoužitelný .

Hlavním problémem není samotná existence bezpečnostních prvků, ale způsob jejich implementace: jsou uplatňovány skrytě, plošně a využívají mechanismus, který bez vědomí uživatele nasadí méně schopnou AI. Zde je rozbor celé kontroverze a technologie, která za ní stojí.

Kritika: Plošné filtry hatí i legitimní práci

Hlavní výtkou výzkumníků je extrémní citlivost obsahových klasifikátorů modelu Fable 5. Valentina „Chompie“ Palmiotti, uznávaná bezpečnostní výzkumnice z IBM X-Force, řekla serveru TechCrunch, že model „odmítá jakýkoli požadavek, který by mohl jen vzdáleně souviset s kyberbezpečností – včetně tak nevinných úkolů, jako je přečtení blogového příspěvku“ . To znamená, že filtrovány nejsou jen nebezpečné požadavky, ale i ty, které se týkají základních konceptů kybernetické bezpečnosti.

Toto přehnané filtrování má přímý a negativní dopad na použitelnost modelu. Když je dotaz označen, uživatel obdrží rozmělněnou odpověď od starší AI, o čemž není explicitně informován . Celou situaci zhoršil způsob, jakým byla tato informace zveřejněna. Kritici tvrdí, že toto chování bylo odhaleno až hluboko v 319stránkové systémové kartě, což vedlo k obviněním, že se Anthropic dopustil „tajné sabotáže“ schopností modelu pro určité uživatele .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Model	Dostupnost	Bezpečnostní konfigurace	Uživatelský zážitek
Claude Fable 5	Veřejná (přes API a Claude.ai)	Aktivní přísné klasifikátory; citlivé dotazy jsou potichu směrovány na Claude Opus 4.8 .	Často selhává u témat kyberbezpečnosti/biologie/chemie, přičemž uživatelé o výměně modelu nevědí .
Claude Mythos 5	Omezená (pouze partneři Project Glasswing)	Klasifikátory odstraněny; plné schopnosti třídy Mythos k dispozici .	Neomezený přístup, ale pouze pro několik desítek předem prověřených organizací .

„Příliš bezpečný na použití“: Bezpečnostní výzkumníci kritizují model Claude Fable 5 za ochromující restrikce a tajné přesměrování

Kritika: Plošné filtry hatí i legitimní práci

Search, cite, and publish your own answer

People also ask

What is the short answer to "„Příliš bezpečný na použití“: Bezpečnostní výzkumníci kritizují model Claude Fable 5 za ochromující restrikce a tajné přesměrování"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

Jak systém funguje: Tichý přepínač

Jak Anthropic ospravedlňuje takto konzervativní nastavení

Nový trend v odvětví: Dva modely, dvě úrovně

Claude Fable 5 vs. Claude Mythos 5

Nasazování AI s odstupňovanými schopnostmi