Begrensningene er ikke begrenset til cybersikkerhet. Sikkerhetsmekanismene retter seg også mot forespørsler relatert til biologi, kjemi og, kritisk nok, KI-modell-destillering (en prosess der en modells output brukes til å trene en annen modell). Dette siste punktet har utløst en egen bølge av kritikk, der enkelte utviklere anklager Anthropic for å bruke «sikkerhet» som et påskudd for konkurransehemmende atferd ved å hindre andre KI-utviklere i å bruke Fable 5s output til trening .
Anthropics sikkerhetssystem i Fable 5 er ikke en enkel avvisningsmekanisme. Det er et ruting-system designet for å feile stille . Arkitekturen fungerer i tre trinn:
Anthropic opplyser at disse klassifikatorene slår ut i færre enn 5 % av alle økter i gjennomsnitt . Selskapet har offentlig anerkjent problemet med overflagging. En talsperson for selskapet fortalte Business Insider at sikkerhetstiltakene «kan flagge trygge, nøytrale eller harmløse forespørsler», men rettferdiggjorde det som et nødvendig kompromiss for å kunne offentliggjøre en modell med så kraftige underliggende kapasiteter
.
Anthropics posisjon er at de konservative sikkerhetsmekanismene er et bevisst og ansvarlig valg, ikke en feil. Selskapet argumenterer for at den underliggende Mythos-modellen er så dyktig på oppgaver som å finne og utnytte programvaresårbarheter at en ubegrenset offentlig utgivelse ville skapt en uakseptabel risiko for katastrofal misbruk .
Sikkerhetsmekanismene er, i deres øyne, et designkompromiss – en måte å gi allmennheten tilgang til en toppmoderne modell for resonnering, koding og skriving, samtidig som man legger en sandkasse rundt dens farligste potensielle kapasiteter . De fremstiller overflaggingen som den midlertidige kostnaden ved å lansere en kraftig modell både «trygt og raskt», med en forpliktelse om å forbedre klassifikatorene over tid
.
Utgivelsen av Claude Fable 5 kan ikke forstås isolert. Den er den ene halvdelen av en todelt distribusjonsstrategi som er i ferd med å bli en ny bransjestandard for de mest avanserte KI-modellene .
Samme dag som Fable 5 ble lansert, annonserte Anthropic også Claude Mythos 5. Begge modellene deler nøyaktig samme underliggende arkitektur og vekter – de er den samme «hjernen». Den eneste forskjellen er sikkerhetskonfigurasjonen. Mythos 5 har fått klassifikatorene fjernet i de sensitive domenene, noe som gir den sine fulle, ubegrensede kapasiteter .
Mythos 5 er imidlertid ikke for allmennheten. Den er begrenset til en liten gruppe godkjente partnere, inkludert offentlige etater og operatører av kritisk infrastruktur, gjennom et initiativ kalt Project Glasswing . Dette amerikansk-støttede programmet ble opprinnelig lansert med 12 grunnleggende partnere, deriblant teknologigiganter som AWS, Google og Microsoft, for å la «cyberforsvarere» bruke KI til å finne og tette programvaresårbarheter i stor skala
. Med lanseringen av Mythos 5 ble tilgangen utvidet til omtrent 40 organisasjoner
.
Tabellen nedenfor illustrerer den fundamentale todelingen:
Anthropics todeling mellom Fable og Mythos er det mest eksplisitte eksempelet på det som kan kalles kapasitetsdelt KI-distribusjon (capability-tiered AI deployment). I denne nye modellen er en enkelt, banebrytende KI ikke ett enkelt produkt. Dens fulle kraft er et privilegium, ikke en selvfølge, og sikkerhetsmekanismene er mekanismen som skaper produktdifferensiering .
Dette mønsteret er ikke unikt for Anthropic. Andre ledende KI-selskaper, inkludert OpenAI, har tatt i bruk lignende tilnærminger ved å tilby versjoner med begrenset tilgang av sine mest avanserte modeller til partnere innen nasjonal sikkerhet og forskning . Fable/Mythos-lanseringen krystalliserer en fremtid der de kraftigste KI-kapasitetene er portstyrt, ikke av teknologi, men av en godkjenningsstatus, der sikkerhetsprotokoller fungerer som adgangskontrollmekanismer – en tilnærming som allerede utløser en bredere debatt om sentralisering, rettferdighet og den sanne betydningen av «offentlig» KI-sikkerhet.
Comments
0 comments