Begränsningarna gäller inte bara cybersäkerhet. Skyddsräckena riktar också in sig på frågor relaterade till biologi, kemi och, avgörande nog, AI-modellsdestillering. Den sistnämnda punkten har utlöst en separat våg av kritik, där vissa utvecklare anklagar Anthropic för att använda "säkerhet" som en förevändning för konkurrensbegränsande beteende, genom att förhindra andra AI-utvecklare från att använda Fable 5:s utdata för träning .
Anthropics säkerhetssystem i Fable 5 är inte en enkel blockeringsmekanism. Det är ett routingsystem utformat för att misslyckas tyst . Arkitekturen fungerar i tre steg:
Anthropic uppger att dessa klassificerare slår till på färre än 5 % av alla sessioner i genomsnitt . Företaget har offentligt erkänt problemet med överflaggning. En talesperson för företaget sa till Business Insider att säkerhetsåtgärderna "kan flagga säkra, neutrala eller oskyldiga förfrågningar", men motiverade det som en nödvändig avvägning för att offentligt kunna lansera en modell med så kraftfulla underliggande förmågor
.
Anthropics hållning är att de konservativa skyddsräckena är ett medvetet och ansvarsfullt val, inte en bugg. Företaget hävdar att den underliggande Mythos-klass-modellen är så skicklig på uppgifter som att hitta och exploatera sårbarheter i mjukvara att en obegränsad offentlig lansering skulle skapa en oacceptabel risk för katastrofalt missbruk .
Skyddsräckena är, enligt deras syn, en designkompromiss – ett sätt att ge allmänheten tillgång till en toppmodern modell för resonemang, kodning och skrivande samtidigt som man sätter en barriär runt dess farligaste potentiella förmågor . De framställer överflaggningen som den tillfälliga kostnaden för att lansera en kraftfull modell "både säkert och snabbt", med ett löfte om att förfina klassificerarna över tid
.
Lanseringen av Claude Fable 5 kan inte förstås fullt ut isolerat. Den är ena halvan av en distributionsstrategi i två nivåer som håller på att bli en ny branschstandard för de mest avancerade AI-modellerna .
Samma dag som Fable 5 släpptes, tillkännagav Anthropic också Claude Mythos 5. Båda modellerna delar exakt samma underliggande arkitektur och vikter – de är samma "hjärna". Den enda skillnaden är säkerhetskonfigurationen. Mythos 5 har fått klassificerarna borttagna inom de känsliga domänerna, vilket ger den dess fulla, obegränsade kapacitet .
Mythos 5 är dock inte till för allmänheten. Den är begränsad till en liten grupp granskade partners, inklusive myndigheter och operatörer av kritisk infrastruktur, genom ett initiativ kallat Project Glasswing . Detta USA-stödda program lanserades initialt med 12 grundande partners, inklusive teknikjättar som AWS, Google och Microsoft, för att låta "cyberförsvarare" använda AI för att hitta och patcha sårbarheter i mjukvara i stor skala
. I och med lanseringen av Mythos 5 utökades tillgången till cirka 40 organisationer
.
Tabellen nedan illustrerar den fundamentala uppdelningen:
Anthropics uppdelning mellan Fable och Mythos är det mest explicita exemplet på vad som kan kallas förmågebaserad AI-distribution. I denna nya modell är en enda avancerad AI inte en enda produkt. Dess fulla kraft är ett privilegium, inte en självklarhet, och säkerhetsspärrar är mekanismen som skapar produktdifferentiering .
Detta mönster är inte unikt för Anthropic. Andra ledande AI-företag, inklusive OpenAI, har antagit liknande tillvägagångssätt genom att tillhandahålla versioner med begränsad tillgång av sina mest avancerade modeller till nationella säkerhets- och forskningspartners . Lanseringen av Fable/Mythos kristalliserar en framtid där de mest kraftfulla AI-förmågorna inte är låsta av teknologin, utan av en granskningsstatus, där säkerhetsprotokoll fungerar som mekanismer för åtkomstkontroll. Detta förhållningssätt har redan tänt en bredare debatt om centralisering, rättvisa och den verkliga innebörden av "allmän" AI-säkerhet.
Comments
0 comments