Begrænsningerne er ikke kun forbeholdt cybersikkerhed. Filtrene rammer også biologi, kemi og, altafgørende, AI-modeldestillering. Det sidste punkt har udløst en separat bølge af kritik, hvor nogle udviklere beskylder Anthropic for at bruge "sikkerhed" som påskud for konkurrenceforvridende adfærd ved at forhindre andre AI-udviklere i at bruge Fable 5's output til træning .
Anthropics sikkerhedssystem i Fable 5 er ikke en simpel afvisningsmekanisme. Det er et "routing"-system, der er designet til at fejle i stilhed . Arkitekturen fungerer i tre trin:
Anthropic oplyser, at disse klassifikatorer i gennemsnit slår til i mindre end 5 % af alle sessioner . Virksomheden har offentligt anerkendt problemet med overflagning. En talsperson fortalte Business Insider, at sikkerhedsforanstaltningerne "kan fange sikre, neutrale eller uskyldige forespørgsler", men retfærdiggjorde det som en nødvendig afvejning for offentligt at kunne udgive en model med så kraftfulde underliggende evner
.
Anthropics holdning er, at de konservative barrierer er et bevidst og ansvarligt valg – ikke en fejl. Virksomheden argumenterer for, at den underliggende Mythos-klasse-model er så dygtig til at finde og udnytte softwaresårbarheder, at en ubegrænset offentlig udgivelse ville skabe en uacceptabel risiko for katastrofal misbrug .
Barriererne er, ifølge dem, et designkompromis – en måde at give offentligheden adgang til en topmoderne model til arbejde med ræsonnement, kodning og tekst, mens man lægger en dæmper på dens farligste potentialer . De beskriver overflagningen som den midlertidige omkostning ved at udgive en kraftfuld model “både sikkert og hurtigt”, med et løfte om at forfine klassifikatorerne over tid
.
Udgivelsen af Claude Fable 5 kan ikke ses isoleret. Det er den ene halvdel af en todelt udrulningsstrategi, der er ved at blive en ny industristandard for de mest avancerede AI-modeller .
Samme dag som Fable 5 blev udgivet, annoncerede Anthropic også Claude Mythos 5. Begge modeller deler den nøjagtigt samme arkitektur og de samme parametre – de har altså den samme "hjerne". Den eneste forskel ligger i sikkerhedskonfigurationen. På Mythos 5 er klassifikatorerne fjernet på de følsomme områder, så den får alle sine ubegrænsede evner .
Men Mythos 5 er ikke for offentligheden. Den er begrænset til en lille gruppe af godkendte partnere, herunder statslige myndigheder og operatører af kritisk infrastruktur, gennem et initiativ kaldet Project Glasswing . Dette USA-støttede program, der startede med 12 stiftende partnere som AWS, Google og Microsoft, lader it-forsvarere bruge AI til at finde og udbedre softwaresårbarheder i stor skala
. Adgangen blev udvidet til cirka 40 organisationer i forbindelse med udgivelsen af Mythos 5
.
Tabellen herunder illustrerer den fundamentale opdeling:
Anthropics opdeling i Fable og Mythos er det tydeligste eksempel på, hvad der kan kaldes niveaudelt AI-implementering. I denne nye model er en enkelt avanceret AI ikke ét enkelt produkt. Dens fulde kraft er et privilegium, og sikkerhedsbarrierer er mekanismen, der skaber produktdifferentiering .
Dette mønster er ikke unikt for Anthropic. Andre førende AI-virksomheder, herunder OpenAI, har taget lignende tilgange ved at tilbyde adgangsbegrænsede versioner af deres mest avancerede modeller til nationale sikkerheds- og forskningspartnere . Fable/Mythos-lanceringen krystalliserer en fremtid, hvor de mest kraftfulde AI-evner ikke er kontrolleret af teknologi, men af en godkendelsesstatus, og hvor sikkerhedsprotokoller fordobles som adgangskontrolmekanismer – en tilgang, der allerede har udløst en bredere debat om centralisering, retfærdighed og den ægte betydning af "offentlig" AI-sikkerhed.
Comments
0 comments