AnswersPublished3 days agoLast edited 3 days ago32 sources

Дослідники кібербезпеки розкритикували Claude Fable 5 від Anthropic через жорсткі запобіжники та приховані підміни

Фахівці з кібербезпеки критикують Claude Fable 5 від Anthropic, оскільки його захисні механізми агресивно блокують навіть нешкідливі запити, пов'язані з безпекою, і непомітно перенаправляють їх до слабшої моделі, не п... Основний удар критики припав на механізм, який маршрутизує запити щодо кібербезпеки, біології, х...

Search & fact-check with Studio Global AI Browse more Trending pages

27K0

A conceptual illustration of a locked digital shield representing AI safety guardrails, with glowing data streams being filtered and diverted, set against a dark cybersecurity-them — What is causing cybersecurity professionals to criticize Anthropic's Claude Fable 5, and how does the model's safety guardrail system work,Anthropic's Claude Fable 5 uses aggressive, silent guardrails to keep its most powerful capabilities out of public hands, a move that has sparked intense debate in the cybersecurity community.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What is causing cybersecurity professionals to criticize Anthropic's Claude Fable 5, and how does the model's safety guardrail system work,. Article summary: Anthropic released Claude Fable 5 on June 9, 2026 as a guardrailed public version of its powerful Mythos-class model, alongside an unrestricted twin, Claude Mythos 5, available only to vetted partners through Project Gla. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Claude Fable 5: Why Anthropic Put Its Most Powerful AI Behind Guardrails. * Anthropic released Claude Fable 5 on 9 June 2026. It is the first publicly available Mythos-class mode" source context "Claude Fable 5: Anthropic Locks Down Cyber and Bio" Reference image 2: visual subject "# Anthropic says these topics
openai.com

Компанія Anthropic випустила Claude Fable 5 9 червня 2026 року як свою найпотужнішу модель штучного інтелекту, доступну для широкого загалу. Однак реліз миттєво викликав різку реакцію з боку спільноти кібербезпеки. Поки компанія позиціонує модель як відповідальний випуск своєї технології класу Mythos, фахівці з безпеки стверджують, що вбудовані захисні обмеження настільки агресивні, що роблять модель функціонально непридатною для законних досліджень та захисної роботи .

Суть критики не в самому існуванні засобів безпеки, а в тому, як вони були реалізовані: непомітно, надто широко та з механізмом відкату, який підміняє менш потужний ШІ без відома користувача. Ось детальний розбір цієї суперечки та технології, що стоїть за нею.

Суть критики: широкі фільтри ламають законну роботу

Головна скарга дослідників — надзвичайна чутливість класифікаторів контенту Fable 5. Валентина «Chompie» Пальміотті, відома дослідниця безпеки з IBM X-Force, розповіла TechCrunch, що модель відхиляє «будь-який запит, який хоча б побіжно стосується кіберсфери — навіть невинні завдання, як-от читання допису в блозі» . Це означає, що під блокування потрапляють не лише небезпечні запити, а й прохання допомогти розібратися з фундаментальними концепціями кібербезпеки.

Таке надмірне блокування має прямий негативний вплив на корисність моделі. Коли запит позначається як небезпечний, користувач отримує розмиту, спрощену відповідь від старішої версії ШІ, причому про цю підміну йому відкрито не повідомляють . Ситуацію ускладнило те, як саме було розкрито цю інформацію. Критики стверджують, що про таку поведінку стало відомо лише з надр 319-сторінкової системної картки, що призвело до звинувачень Anthropic у «таємному саботажі» можливостей моделі для певних користувачів .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Модель	Доступність	Конфігурація безпеки	Користувацький досвід
Claude Fable 5	Публічна (через API та Claude.ai)	Активні суворі класифікатори; чутливі запити непомітно перенаправляються до Claude Opus 4.8 .	Часто погіршується на темах кібербезпеки, біології, хімії, при цьому користувачі не знають про підміну моделі .
Claude Mythos 5	Обмежена (лише для партнерів Project Glasswing)	Класифікатори вимкнені; доступні повні можливості рівня Mythos .	Безперешкодний доступ, але лише для кількох десятків попередньо перевірених організацій .

Дослідники кібербезпеки розкритикували Claude Fable 5 від Anthropic через жорсткі запобіжники та приховані підміни

Суть критики: широкі фільтри ламають законну роботу

Search, cite, and publish your own answer

People also ask

What is the short answer to "Дослідники кібербезпеки розкритикували Claude Fable 5 від Anthropic через жорсткі запобіжники та приховані підміни"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

Як працює система захисту: «тихий» перемикач

Як Anthropic виправдовує консервативне налаштування

Нова галузева модель: одна модель, два рівні доступу

Claude Fable 5 проти Claude Mythos 5

Розгортання ШІ з рівнями можливостей