AnswersPublished3 days agoLast edited 3 days ago32 sources

Cybersäkerhetsexperter rasar mot Anthropics Claude Fable 5 – anklagas för hemlig sabotage och tandlösa spärrar

Cybersäkerhetsforskare rasar mot Anthropics Claude Fable 5 eftersom dess säkerhetsspärrar aggressivt blockerar även harmlösa säkerhetsrelaterade frågor och i hemlighet faller tillbaka på en svagare modell utan att inf... Kritiken riktas mot en mekanism som dirigerar om frågor om cybersäkerhet, biologi, kemi och AI d...

Search & fact-check with Studio Global AI Browse more Trending pages

39K0

A conceptual illustration of a locked digital shield representing AI safety guardrails, with glowing data streams being filtered and diverted, set against a dark cybersecurity-them — What is causing cybersecurity professionals to criticize Anthropic's Claude Fable 5, and how does the model's safety guardrail system work,Anthropic's Claude Fable 5 uses aggressive, silent guardrails to keep its most powerful capabilities out of public hands, a move that has sparked intense debate in the cybersecurity community.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What is causing cybersecurity professionals to criticize Anthropic's Claude Fable 5, and how does the model's safety guardrail system work,. Article summary: Anthropic released Claude Fable 5 on June 9, 2026 as a guardrailed public version of its powerful Mythos-class model, alongside an unrestricted twin, Claude Mythos 5, available only to vetted partners through Project Gla. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Claude Fable 5: Why Anthropic Put Its Most Powerful AI Behind Guardrails. * Anthropic released Claude Fable 5 on 9 June 2026. It is the first publicly available Mythos-class mode" source context "Claude Fable 5: Anthropic Locks Down Cyber and Bio" Reference image 2: visual subject "# Anthropic says these topics
openai.com

Anthropic lanserade den 9 juni 2026 sin hittills kraftfullaste AI-modell för allmänheten, Claude Fable 5, men möttes omedelbart av hård kritik från cybersäkerhetsvärlden. Medan företaget beskriver modellen som en ansvarsfull lansering av sin Mythos-klass-teknik, hävdar säkerhetsexperter att de inbyggda skyddsräckena är så aggressiva att modellen blir praktiskt taget oanvändbar för legitim forskning och defensivt arbete .

Kärnan i kritiken handlar inte om att säkerhetsfunktioner finns, utan om hur de har implementerats: tyst, brett och med en fallback-mekanism som byter till en mindre kapabel AI utan att användaren vet om det. Här följer en genomgång av kontroversen och tekniken bakom.

Kritiken: breda filter saboterar legitim yrkesutövning

Det främsta klagomålet från forskare är den extrema känsligheten hos Fable 5:s innehållsklassificerare. Valentina “Chompie” Palmiotti, en framstående säkerhetsforskare vid IBM X-Force, berättade för TechCrunch att modellen avvisar "varje förfrågan som tangentiellt kan vara cyberrelaterad – även oskyldiga uppgifter som att läsa ett blogginlägg" . Detta innebär att förfrågningar om hjälp med att förstå grundläggande cybersäkerhetskoncept flaggas, inte bara farliga sådana.

Denna överdrivna flaggning har en direkt, negativ inverkan på modellens användbarhet. När en fråga flaggas får användaren ett urvattnat svar från en äldre AI, ett byte de inte uttryckligen informeras om . Saken förvärrades av hur denna information offentliggjordes. Kritiker hävdar att beteendet endast avslöjades djupt inne i ett 319-sidigt systemkort, vilket lett till anklagelser om att Anthropic ägnar sig åt "hemlig sabotage" av modellens förmågor för vissa användare .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Modell	Tillgänglighet	Säkerhetskonfiguration	Användarupplevelse
Claude Fable 5	Allmän (via API och Claude.ai)	Strikta klassificerare aktiva; känsliga frågor dirigeras tyst om till Claude Opus 4.8 .	Försämras ofta på frågor om it-säkerhet/bio/kemi, utan att användaren vet om modellbytet .
Claude Mythos 5	Begränsad (endast Project Glasswing-partners)	Klassificerare borttagna; full Mythos-klass-kapacitet tillgänglig .	Ohindrad tillgång, men endast för några dussin förhandsgodkända organisationer .

Cybersäkerhetsexperter rasar mot Anthropics Claude Fable 5 – anklagas för hemlig sabotage och tandlösa spärrar

Kritiken: breda filter saboterar legitim yrkesutövning

Search, cite, and publish your own answer

People also ask

What is the short answer to "Cybersäkerhetsexperter rasar mot Anthropics Claude Fable 5 – anklagas för hemlig sabotage och tandlösa spärrar"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

Så fungerar skyddsräckessystemet: en tyst växel

Så rättfärdigar Anthropic den konservativa inställningen

Det framväxande branschmönstret: Två modeller, två nivåer

Claude Fable 5 vs. Claude Mythos 5

Förmågebaserad AI-distribution