De beperkingen houden niet op bij cybersecurity. Ook vragen over biologie, scheikunde en – heel belangrijk – AI-modeldistillatie worden tegengehouden. Dit laatste punt heeft een nieuwe golf van kritiek aangewakkerd, waarbij sommige ontwikkelaars Anthropic ervan beschuldigen "veiligheid" als dekmantel te gebruiken voor concurrentieverstorend gedrag, door andere AI-ontwikkelaars te beletten Fable 5's output te gebruiken voor training .
Anthropic's veiligheidssysteem in Fable 5 is geen simpel weigeringsmechanisme. Het is een routeringssysteem dat is ontworpen om geruisloos te falen . De architectuur werkt in drie stappen:
Anthropic stelt dat deze classifiers bij gemiddeld minder dan 5% van alle sessies in werking treden . Het bedrijf heeft het probleem van overmatig blokkeren openlijk erkend. Een woordvoerder van het bedrijf vertelde Business Insider dat de veiligheidsmaatregelen "veilige, neutrale of onschuldige verzoeken kunnen markeren", maar rechtvaardigde dit als een noodzakelijke afweging om een model met zulke krachtige onderliggende capaciteiten publiekelijk uit te brengen
.
Het standpunt van Anthropic is dat de conservatieve barrières een weloverwogen en verantwoorde keuze zijn, geen fout. Het bedrijf stelt dat het onderliggende Mythos-klasse model zo bedreven is in taken als het vinden en misbruiken van softwarelekken, dat een onbeperkte publieke release een onaanvaardbaar risico op catastrofaal misbruik zou vormen .
De beschermingslagen zijn, in hun ogen, een compromis – een manier om het publiek toegang te geven tot een state-of-the-art model voor redeneren, programmeren en schrijven, terwijl de gevaarlijkste capaciteiten in een zandbak worden geplaatst . Ze schetsen het overmatig blokkeren als de tijdelijke prijs om een krachtig model "veilig én snel" uit te brengen, met de belofte de filters in de loop van de tijd te verfijnen
.
De release van Claude Fable 5 kan niet volledig op zichzelf worden begrepen. Het is één helft van een tweetraps uitrolstrategie die een nieuwe industriestandaard aan het worden is voor geavanceerde AI-modellen .
Op dezelfde dag dat Fable 5 werd gelanceerd, kondigde Anthropic ook Claude Mythos 5 aan. Beide modellen delen exact dezelfde onderliggende architectuur en gewichten – het is hetzelfde 'brein'. Het enige verschil is de veiligheidsconfiguratie. Bij Mythos 5 zijn de classifiers op de gevoelige domeinen verwijderd, waardoor het zijn volledige, onbeperkte capaciteiten krijgt .
Mythos 5 is echter niet voor het publiek. Het is voorbehouden aan een kleine groep gescreende partners, waaronder overheidsinstanties en beheerders van kritieke infrastructuur, via een initiatief genaamd Project Glasswing . Dit door de Amerikaanse overheid gesteunde programma is oorspronkelijk gelanceerd met 12 oprichtende partners, waaronder techgiganten als AWS, Google en Microsoft, om 'cyberverdedigers' met AI op grote schaal softwarelekken te laten vinden en dichten
. Met de release van Mythos 5 is de toegang uitgebreid naar ongeveer 40 organisaties
.
De onderstaande tabel illustreert de fundamentele splitsing:
De Fable/Mythos-splitsing van Anthropic is het meest expliciete voorbeeld van wat we AI-deployment met getrapte capaciteiten kunnen noemen. In dit nieuwe model is een enkel high-end AI-model niet één product. De volledige kracht is een voorrecht, geen gegeven, en veiligheidsbarrières zijn het mechanisme dat productdifferentiatie creëert .
Dit patroon is niet uniek voor Anthropic. Andere toonaangevende AI-bedrijven, waaronder OpenAI, hebben een vergelijkbare aanpak gekozen door versies van hun meest geavanceerde modellen met beperkte toegang aan te bieden aan partners op het gebied van nationale veiligheid en onderzoek . De Fable/Mythos-lancering maakt een toekomst concreet waarin de krachtigste AI-mogelijkheden niet worden afgeschermd door technologie, maar door een screeningstatus. Veiligheidsprotocollen fungeren daarbij als toegangscontrolemechanismen – een benadering die nu al een breder debat aanwakkert over centralisatie, eerlijkheid en de ware betekenis van 'publieke' AI-veiligheid.
Comments
0 comments