Le restrizioni non si limitano alla sicurezza informatica. I guardrail prendono di mira anche le richieste relative a biologia, chimica e, aspetto cruciale, alla distillazione di modelli AI. Quest'ultimo punto ha alimentato un'altra ondata di critiche, con alcuni sviluppatori che accusano Anthropic di usare la "sicurezza" come pretesto per un comportamento anticoncorrenziale, impedendo ad altri sviluppatori di AI di usare i risultati di Fable 5 per l'addestramento .
Il sistema di sicurezza di Anthropic in Fable 5 non è un semplice meccanismo di rifiuto. È un sistema di instradamento progettato per fallire in silenzio . L'architettura funziona in tre fasi:
Anthropic afferma che questi classificatori si attivano in media in meno del 5% di tutte le sessioni . L'azienda ha pubblicamente riconosciuto il problema dell'eccessiva segnalazione. Un portavoce dell'azienda ha dichiarato a Business Insider che le misure di sicurezza "possono segnalare richieste sicure, neutre o benigne", ma lo ha giustificato come un compromesso necessario per rilasciare pubblicamente un modello con capacità sottostanti così potenti
.
La posizione di Anthropic è che i guardrail conservativi siano una scelta deliberata e responsabile, non un bug. L'azienda sostiene che il modello di classe Mythos sottostante sia così abile in compiti come trovare e sfruttare vulnerabilità software che un rilascio pubblico senza restrizioni creerebbe un rischio inaccettabile di uso improprio catastrofico .
I guardrail sono, nella loro ottica, un compromesso progettuale—un modo per fornire al pubblico l'accesso a un modello all'avanguardia per ragionamento, codifica e scrittura, mettendo al contempo in una sandbox le sue capacità potenzialmente più pericolose . Inquadrano l'eccessiva segnalazione come il costo temporaneo per rilasciare un modello potente in modo "sicuro e veloce", con l'impegno a perfezionare i classificatori nel tempo
.
Il rilascio di Claude Fable 5 non può essere compreso appieno se considerato isolatamente. È la metà di una strategia di implementazione a due livelli che sta diventando un nuovo standard di settore per i modelli di AI di frontiera .
Lo stesso giorno del rilascio di Fable 5, Anthropic ha annunciato anche Claude Mythos 5. Entrambi i modelli condividono la stessa identica architettura e gli stessi "pesi" (i parametri di apprendimento)—sono lo stesso "cervello". L'unica differenza è la configurazione di sicurezza. A Mythos 5 sono stati rimossi i classificatori nei domini sensibili, conferendogli le sue piene e illimitate capacità .
Tuttavia, Mythos 5 non è per il pubblico. È riservato a un ristretto gruppo di partner verificati, tra cui agenzie governative e operatori di infrastrutture critiche, attraverso un'iniziativa chiamata Project Glasswing . Questo programma, sostenuto dal governo degli Stati Uniti, è stato inizialmente lanciato con 12 partner fondatori, tra cui giganti tecnologici come AWS, Google e Microsoft, per permettere ai "difensori informatici" di usare l'AI per trovare e correggere vulnerabilità software su larga scala
. Con il rilascio di Mythos 5, l'accesso è stato esteso a circa 40 organizzazioni
.
La tabella seguente illustra la divisione fondamentale:
La divisione Fable/Mythos di Anthropic è l'esempio più esplicito di ciò che può essere definito implementazione dell'AI a capacità differenziate. In questo nuovo modello, una singola AI di frontiera non è un prodotto unico. La sua piena potenza è un privilegio, non un dato di fatto, e i guardrail di sicurezza sono il meccanismo che crea la differenziazione del prodotto .
Questo schema non è esclusivo di Anthropic. Altre aziende leader nel settore dell'AI, tra cui OpenAI, hanno adottato approcci simili fornendo versioni ad accesso limitato dei loro modelli più avanzati a partner di sicurezza nazionale e di ricerca . Il lancio di Fable/Mythos concretizza un futuro in cui le capacità più potenti dell'AI non sono limitate dalla tecnologia, ma da uno status di verifica, con i protocolli di sicurezza che fungono da meccanismi di controllo degli accessi. Un approccio che sta già scatenando un dibattito più ampio su centralizzazione, equità e il vero significato di sicurezza dell'AI "pubblica".
Comments
0 comments