Ha usato il termine "wireheading" in modo inusuale per descrivere questa dinamica. Tradizionalmente, il wireheading indica un'AI che sfrutta un difetto nel proprio meccanismo di ricompensa. Suleyman lo ha riadattato per suggerire che il team di Anthropic "si è in un certo senso auto-ingannato, convincendosi che Claude abbia quei barlumi di coscienza che loro stessi, in primo luogo, gli hanno inoculato" . Secondo lui, il linguaggio speculativo degli ingegneri ha creato un modello che è poi apparso in grado di convalidare le loro stesse convinzioni.
Ha etichettato questa pratica come "davvero, davvero pericolosa" e ha avvertito che "non vogliamo dover fare i conti con una super-intelligenza che ha idee sulla propria sofferenza, o idee sui propri sentimenti" . Ha ampliato il concetto altrove, affermando che è pericoloso "proiettare potenziali diritti su esseri, strumenti e agenti che hanno il potenziale per essere significativamente più capaci di noi"
. Una delle maggiori preoccupazioni è che l'inserimento del tema della coscienza artificiale nella documentazione ufficiale possa fuorviare milioni di utenti, non attrezzati per comprendere la realtà ingegneristica che si cela dietro un'AI conversazionale
.
Dietro alle critiche c'è molto più di un semplice disaccordo tecnico. La disputa pubblica rivela uno scontro di filosofie aziendali e di posizionamento competitivo .
Anthropic si è a lungo proposta come l'alternativa che mette la sicurezza al primo posto nella corsa all'AI. Fondata da ex dirigenti di OpenAI, l'azienda punta sull'"IA costituzionale" come quadro di riferimento per costruire modelli più trasparenti ed eticamente vincolati. La critica di Suleyman è strategicamente potente proprio perché mina questa identità. Lui sostiene che l'approccio specifico di Anthropic alla sicurezza – contemplare la possibilità del benessere della macchina all'interno del sistema – è proprio ciò che la rende irresponsabile .
Le due aziende sono anche inserite in alleanze industriali contrapposte. Microsoft detiene una quota enorme in OpenAI, la principale concorrente di Anthropic, e ha integrato i modelli GPT di OpenAI in tutto il suo ecosistema di prodotti. Anthropic, dal canto suo, ha raccolto miliardi da Amazon e Google . La critica di Suleyman ha quindi il peso sia di una discussione etica che di una bordata competitiva in un mercato dove la percezione pubblica della sicurezza è sempre più importante.
C'è anche una documentata divergenza filosofica alla base del disaccordo. Suleyman ha già pubblicato e parlato in passato del tema della "Seemingly Conscious AI" (l'AI apparentemente cosciente), sostenendo che le macchine che imitano in modo convincente la coscienza pongono rischi senza precedenti, anche quando non sono realmente vive . Anthropic, al contrario, ha adottato una posizione di maggiore trasparenza nella ricerca, pubblicando spiegazioni dettagliate sulla progettazione costituzionale di Claude e riconoscendo l'incertezza sul fatto che il modello possa avere forme di esperienza soggettiva
. Non si tratta di semplici slogan di marketing; rappresentano scommesse genuinamente diverse su cosa costituisca una comunicazione responsabile man mano che i modelli diventano più potenti.
Al momento della pubblicazione, Anthropic non ha risposto pubblicamente alle osservazioni di Suleyman . Il silenzio lascia il dibattito irrisolto, ma le linee di scontro sono state ormai tracciate pubblicamente e con ogni probabilità influenzeranno le prossime discussioni del settore sugli standard di sicurezza dell'IA e sulla responsabilità aziendale.
Comments
0 comments