Обмеження не обмежуються лише кібербезпекою. Запобіжники також націлені на запити, пов'язані з біологією, хімією та, що критично важливо, з дистиляцією моделей ШІ. Останній пункт викликав окрему хвилю критики: деякі розробники звинувачують Anthropic у використанні «безпеки» як приводу для антиконкурентної поведінки, що заважає іншим розробникам ШІ використовувати результати роботи Fable 5 для навчання власних моделей .
Система безпеки в Fable 5 — це не простий механізм відмови. Це система маршрутизації, створена для того, щоб «мовчки» давати збій . Архітектура працює у три кроки:
Anthropic стверджує, що ці класифікатори спрацьовують у середньому менш ніж у 5% усіх сесій . Компанія публічно визнала проблему надмірного блокування. Представник компанії повідомив Business Insider, що заходи безпеки «можуть позначати безпечний, нейтральний або нешкідливий контент», але виправдав це як необхідний компроміс для публічного випуску моделі з такими потужними базовими можливостями
.
Позиція Anthropic полягає в тому, що консервативні запобіжники — це свідомий і відповідальний вибір, а не помилка. Компанія стверджує, що базова модель класу Mythos настільки вправна в таких завданнях, як пошук і використання вразливостей у програмному забезпеченні, що її необмежений публічний випуск створив би неприйнятний ризик катастрофічного зловживання .
На їхню думку, запобіжники — це компроміс у дизайні, спосіб надати публіці доступ до найсучаснішої моделі для міркувань, кодингу та написання текстів, одночасно помістивши в «пісочницю» її найнебезпечніші потенційні можливості . Надмірне блокування вони подають як тимчасову ціну за можливість випустити потужну модель «швидко і безпечно», обіцяючи з часом вдосконалювати класифікатори
.
Реліз Claude Fable 5 не можна повністю зрозуміти у відриві від контексту. Це лише половина дворівневої стратегії розгортання, яка стає новим галузевим стандартом для передових моделей ШІ .
Того ж дня, коли вийшла Fable 5, Anthropic також анонсувала Claude Mythos 5. Обидві моделі мають абсолютно однакову базову архітектуру та вагові коефіцієнти — це один і той самий «мозок». Єдина відмінність — конфігурація безпеки. У Mythos 5 класифікатори у чутливих сферах вимкнені, що дає їй повний, необмежений доступ до всіх можливостей .
Однак Mythos 5 не для широкого загалу. Вона доступна лише невеликій групі перевірених партнерів, зокрема урядовим установам та операторам критичної інфраструктури, через ініціативу під назвою Project Glasswing . Ця програма, підтримана урядом США, спочатку була запущена з 12 партнерами-засновниками, серед яких технологічні гіганти AWS, Google та Microsoft. Її мета — дозволити «кіберзахисникам» використовувати ШІ для пошуку та виправлення вразливостей у програмному забезпеченні в масштабі
. З випуском Mythos 5 доступ було розширено приблизно до 40 організацій
.
Таблиця нижче ілюструє фундаментальну різницю:
Поділ на Fable/Mythos від Anthropic є найяскравішим прикладом того, що можна назвати розгортанням ШІ з рівнями можливостей (capability-tiered AI deployment). У цій новій моделі єдиний передовий ШІ більше не є єдиним продуктом. Його повна потужність — це привілей, а не даність, а захисні обмеження є механізмом, який створює диференціацію продукту .
Ця схема не є унікальною для Anthropic. Інші провідні компанії з розробки ШІ, зокрема OpenAI, застосували подібні підходи, надаючи версії своїх найпередовіших моделей з обмеженим доступом партнерам із національної безпеки та дослідницьких установ . Запуск Fable/Mythos кристалізує майбутнє, в якому найпотужніші можливості ШІ регулюються не технологією, а статусом перевірки, де протоколи безпеки виконують функцію механізмів контролю доступу. Цей підхід уже розпалює ширшу дискусію про централізацію, справедливість та справжнє значення «публічної» безпеки ШІ.
Comments
0 comments