Omezení se netýkají jen kyberbezpečnosti. Filtry cílí i na dotazy spojené s biologií, chemií a především s „destilací“ (distillation) modelů AI. Tento poslední bod vyvolal další vlnu kritiky, přičemž někteří vývojáři obviňují Anthropic, že používá „bezpečnost“ jako záminku pro nekalosoutěžní chování – brání totiž ostatním vývojářům AI používat výstupy Fable 5 pro trénování jejich vlastních modelů .
Bezpečnostní systém v modelu Fable 5 není jednoduchým mechanismem odmítnutí. Jde o směrovací systém navržený tak, aby selhal potichu . Jeho architektura má tři kroky:
Anthropic uvádí, že se tyto klasifikátory aktivují v průměru u méně než 5 % všech relací . Společnost veřejně přiznává problém s přehnaným označováním dotazů. Mluvčí společnosti řekl serveru Business Insider, že bezpečnostní opatření „mohou označit i bezpečný, neutrální nebo neškodný obsah“, ale obhajoval to jako nezbytný kompromis, aby mohl být veřejně vydán model s tak silnými základními schopnostmi
.
Pozice společnosti Anthropic je taková, že konzervativní záchranné brzdy jsou záměrnou a zodpovědnou volbou, nikoli chybou. Společnost tvrdí, že základní model třídy Mythos je natolik zdatný v úkolech, jako je hledání a zneužívání softwarových zranitelností, že neomezené veřejné vydání by představovalo nepřijatelné riziko katastrofálního zneužití .
Z jejich pohledu jsou tyto zábrany konstrukčním kompromisem – způsobem, jak veřejnosti poskytnout přístup k nejmodernějšímu modelu pro uvažování, programování a psaní, a zároveň uzavřít jeho nejnebezpečnější potenciální schopnosti do pomyslného pískoviště . Přehnané filtrování označují za dočasnou cenu za „bezpečné a rychlé“ vydání výkonného modelu se závazkem, že klasifikátory budou časem vylepšovány
.
Uvedení modelu Claude Fable 5 nelze chápat izolovaně. Je to jedna polovina dvouúrovňové strategie nasazování, která se stává novým standardem pro špičkové modely AI .
Ve stejný den, kdy byl vydán Fable 5, oznámil Anthropic také model Claude Mythos 5. Oba modely sdílejí naprosto stejnou základní architekturu a váhy – mají tedy stejný „mozek“. Jediným rozdílem je bezpečnostní konfigurace. Model Mythos 5 má v citlivých oblastech odstraněny klasifikátory, což mu dává plné, neomezené schopnosti .
Mythos 5 však není pro veřejnost. Je vyhrazen pro malou skupinu prověřených partnerů, včetně vládních agentur a provozovatelů kritické infrastruktury, a to prostřednictvím iniciativy Project Glasswing . Tento program podporovaný americkou vládou byl původně spuštěn s 12 zakládajícími partnery, včetně technologických gigantů jako AWS, Google a Microsoft, aby umožnil „kybernetickým obráncům“ používat AI k hledání a opravování softwarových zranitelností ve velkém měřítku
. S vydáním modelu Mythos 5 byl přístup rozšířen na přibližně 40 organizací
.
Následující tabulka ilustruje zásadní rozdíl:
Rozdělení modelu na veřejnou Fable a utajovanou Mythos verzi je nejexplicitnějším příkladem toho, co lze nazvat nasazováním AI s odstupňovanými schopnostmi. V tomto novém modelu není jediná špičková AI jediným produktem. Její plná síla je privilegiem, nikoli samozřejmostí, a bezpečnostní zábrany jsou mechanismem, který vytváří produktovou diferenciaci .
Tento vzorec není ojedinělý. Další přední AI společnosti, včetně OpenAI, přijaly podobné přístupy, když poskytují verze svých nejpokročilejších modelů s omezeným přístupem partnerům z oblasti národní bezpečnosti a výzkumu . Uvedení Fable/Mythos krystalizuje budoucnost, kde jsou nejvýkonnější schopnosti AI blokovány nikoli technologií, ale statusem prověření, přičemž bezpečnostní protokoly slouží jako mechanismus kontroly přístupu. Tento přístup již nyní vyvolává širší debatu o centralizaci, spravedlnosti a skutečném významu „veřejné“ bezpečnosti AI.
Comments
0 comments