Ograniczenia nie dotyczą tylko cyberbezpieczeństwa. Zabezpieczenia celują również w zapytania związane z biologią, chemią i, co kluczowe, destylacją modeli AI. Ten ostatni punkt wywołał kolejną falę krytyki – niektórzy deweloperzy oskarżają Anthropic o wykorzystywanie pretekstu „bezpieczeństwa” do działań antykonkurencyjnych, uniemożliwiając innym twórcom AI wykorzystywanie wyników Fable 5 do trenowania własnych modeli .
System bezpieczeństwa w Fable 5 to nie prosty mechanizm odmowy. To system routingu zaprojektowany tak, by „zawodził po cichu” . Jego architektura działa w trzech krokach:
Anthropic twierdzi, że te klasyfikatory uruchamiają się średnio w mniej niż 5% wszystkich sesji . Firma publicznie przyznała, że występuje problem nadmiernego flagowania. Rzecznik firmy powiedział Business Insider, że zabezpieczenia „mogą wychwytywać bezpieczne, neutralne lub nieszkodliwe zapytania”, ale uzasadnił to jako konieczny kompromis, aby móc publicznie udostępnić model o tak potężnych możliwościach
.
Stanowisko Anthropic jest takie, że konserwatywne zabezpieczenia to celowy i odpowiedzialny wybór, a nie błąd. Firma argumentuje, że bazowy model klasy Mythos jest tak biegły w zadaniach takich jak znajdowanie i wykorzystywanie luk w oprogramowaniu, że nieograniczone publiczne udostępnienie stwarzałoby niedopuszczalne ryzyko katastrofalnego użycia .
Z ich punktu widzenia, zabezpieczenia są kompromisem projektowym – sposobem na zapewnienie społeczeństwu dostępu do najnowocześniejszego modelu zdolnego do rozumowania, kodowania i pisania, przy jednoczesnym odizolowaniu jego najniebezpieczniejszych potencjalnych możliwości . Przedstawiają nadmierne flagowanie jako tymczasowy koszt szybkiego i bezpiecznego udostępnienia potężnego modelu, zobowiązując się do stopniowego udoskonalania klasyfikatorów
.
Premiera Claude Fable 5 nie może być rozpatrywana w oderwaniu od kontekstu. Jest to jedna strona medalu w dwupoziomowej strategii wdrażania, która staje się nowym standardem w branży dla przełomowych modeli AI .
Tego samego dnia co Fable 5, Anthropic ogłosiło również Claude Mythos 5. Oba modele mają identyczną architekturę i wagi – to ten sam „mózg”. Jedyną różnicą jest konfiguracja bezpieczeństwa. W Mythos 5 usunięto klasyfikatory dla wrażliwych domen, co zapewnia mu pełne, nieograniczone możliwości .
Mythos 5 nie jest jednak dostępny publicznie. Jest zarezerwowany dla niewielkiej grupy sprawdzonych partnerów, w tym agencji rządowych i operatorów infrastruktury krytycznej, w ramach inicjatywy o nazwie Project Glasswing . Ten wspierany przez rząd USA program został początkowo uruchomiony z 12 partnerami-założycielami, w tym gigantami technologicznymi jak AWS, Google i Microsoft, aby umożliwić „cyberobrońcom” wykorzystanie AI do znajdowania i łatania luk w oprogramowaniu na masową skalę
. Wraz z premierą Mythos 5 dostęp rozszerzono do około 40 organizacji
.
Poniższa tabela ilustruje ten fundamentalny podział:
Podział Fable/Mythos od Anthropic jest najbardziej wyrazistym przykładem tego, co można nazwać wdrażaniem AI z podziałem na poziomy możliwości (capability-tiered AI deployment). W tym nowym modelu pojedyncza, przełomowa AI nie jest jednym produktem. Jej pełna moc jest przywilejem, a nie rzeczą oczywistą, a zabezpieczenia są mechanizmem tworzącym zróżnicowanie produktów .
Ten schemat nie jest unikalny dla Anthropic. Inne wiodące firmy AI, w tym OpenAI, przyjęły podobne podejście, udostępniając wersje swoich najbardziej zaawansowanych modeli z ograniczonym dostępem partnerom z sektora bezpieczeństwa narodowego i badawczego . Premiera Fable/Mythos krystalizuje wizję przyszłości, w której najpotężniejsze możliwości AI są reglamentowane nie przez technologię, ale przez status weryfikacji. Protokoły bezpieczeństwa pełnią podwójną funkcję mechanizmów kontroli dostępu – podejście, które już teraz wywołuje szerszą debatę na temat centralizacji, równości i prawdziwego znaczenia „publicznego” bezpieczeństwa AI. To już nie tylko kwestia bezpieczeństwa, ale i fundamentalnych zasad dostępu do technologii przyszłości.
Comments
0 comments