Fin dall'inizio, Claude Code è stato progettato per flussi di lavoro pratici. Poteva cercare e leggere codice, modificare file, eseguire test e fare push su GitHub, il tutto dalla riga di comando . L'accesso iniziale era limitato, ma la risposta degli sviluppatori fu immediata. Nel marzo 2025, lo strumento aveva già aggiunto il supporto per incollare immagini e la menzione di file con "@"; ad aprile 2025, sono state introdotte la persistenza delle sessioni e la funzione di "riprendi", permettendo alle conversazioni di mantenere il contesto tra un riavvio e l'altro
.
La serie di versioni 0.2.x, sviluppata da febbraio fino al lancio in disponibilità generale a maggio, ha progressivamente stabilizzato l'esperienza da terminale. Quando Claude Code ha raggiunto la GA, era già pronto per un uso in produzione in lavori di ingegneria software prolungati .
Dietro le capacità di Claude Code ci sono i successivi modelli di punta di Anthropic. Ogni generazione Opus ha migliorato direttamente le abilità di coding, ragionamento e affidabilità dello strumento.
Claude Opus 4.5, rilasciato a novembre 2025, è stato posizionato come il miglior modello al mondo per coding, agenti e uso del computer . Ha stabilito l'architettura Opus 4.x che sarebbe diventata la base della piattaforma.
Opus 4.6 ha portato miglioramenti significativi nella pianificazione, nell'affidabilità per compiti agentici di lunga durata e nell'operatività su codebase estese. Ma la novità più eclatante è stata l'introduzione in beta di una finestra di contesto da 1 milione di token, una prima volta per un modello di classe Opus .
Il salto da Opus 4.6 a Opus 4.7 è stato sismico nei benchmark di coding. Con un singolo rilascio, Anthropic è passata dall'80,8% all'87,6% su SWE-bench Verified (modalità adattiva) . Ha anche spinto SWE-bench Pro dal 53,4% al 64,3%, con un vantaggio di oltre 10 punti sul più diretto concorrente
.
Opus 4.7 ha introdotto il "pensiero adattivo", che alloca dinamicamente la potenza di calcolo per ogni compito, e ha stabilizzato la finestra di contesto da 1 milione di token a livello di produzione tramite l'API di Anthropic, Amazon Bedrock e Vertex AI di Google Cloud .
L'aggiornamento più recente raffina più che trasformare. Opus 4.8 si basa direttamente su Opus 4.7, migliorando i punteggi di SWE-bench Pro dal 64,3% al 69,2%, riducendo al contempo drasticamente il tasso di difetti nel codice non rilevati. Anthropic ha riferito che il modello ha una probabilità quattro volte inferiore di lasciar passare inosservati i propri errori, e che i tester hanno notato una maggiore propensione a segnalare le incertezze ed evitare affermazioni non supportate .
Fondamentalmente, Opus 4.8 mantiene la compatibilità API con Opus 4.7 e ha lo stesso prezzo. Introduce inoltre una "Modalità Veloce" 2,5 volte più rapida a un terzo del costo, migliorando direttamente l'esperienza dello sviluppatore in Claude Code .
Anthropic ha tenuto la sua prima conferenza annuale per sviluppatori, Code with Claude, il 6 maggio 2026 a San Francisco, con eventi satellite a Londra e Tokyo . Invece di presentare un nuovo modello, l'evento si è concentrato interamente sulle capacità della piattaforma, in particolare sulle novità per Claude Managed Agents.
Anthropic ha rilasciato quattro funzionalità per il suo ambiente di esecuzione (runtime) per agenti stateful, che era stato lanciato in beta pubblica solo un mese prima .
Dreaming (Research Preview) è la più ambiziosa. Quando gli agenti sono inattivi, un processo in background esamina fino a 100 conversazioni passate, estrae pattern ricorrenti, flussi di lavoro ed errori comuni, e riscrive la memoria dell'agente per aumentare la qualità del segnale. I dati originali rimangono immutati, e l'agente adotta gli aggiornamenti solo esplicitamente; gli sviluppatori possono scegliere una revisione manuale prima che la memoria venga modificata .
Questo meccanismo permette agli agenti di migliorare nel tempo senza un addestramento diretto. È attualmente disponibile in research preview e richiede di fare domanda per l'accesso .
Outcomes (Beta Pubblica) introduce criteri di successo strutturati. Un valutatore indipendente analizza l'output di un agente rispetto a rubriche definite dallo sviluppatore. Se il punteggio è inferiore a una soglia, l'agente riprova automaticamente .
Orchestrazione Multi-Agente (Beta Pubblica) consente a un agente principale di scomporre compiti complessi e distribuirli a una flotta di sotto-agenti specializzati, ciascuno con il proprio modello, prompt e strumenti, che lavorano in parallelo su un file system condiviso .
Webhooks (Beta Pubblica) permettono agli agenti di inviare notifiche a sistemi esterni quando un compito è terminato, trasformando i flussi di lavoro da "conversazionali" a "guidati dagli eventi" .
Oltre alle novità sui Managed Agents, Code with Claude ha incluso altri lanci:
Il dato di benchmark principale di Claude Code è il suo 87,6% su SWE-bench Verified, raggiunto con Claude Opus 4.7 in modalità adattiva . Questo punteggio rappresenta il risultato più alto mai pubblicato tra gli agenti di coding AI generalmente disponibili a giugno 2026.
SWE-bench Verified è un set di 500 problemi reali tratti da repository GitHub open-source in Python, che gli agenti devono risolvere completamente. È diventato il punto di riferimento standard per l'ingegneria software agentica, e l'ascesa di Claude Code in questa classifica — dall'80,9% con Opus 4.5 all'87,6% con Opus 4.7 — è una delle narrazioni centrali del prodotto .
La cifra dell'87,6% non è statica. Dipende dal modello, dal prompt e dall'"harness", cioè l'ambiente di esecuzione che orchestra l'uso degli strumenti. La modalità adattiva di Claude Opus 4.7 alloca dinamicamente la potenza di calcolo per ogni compito, dedicando più risorse a interventi complessi. Claude Code senza questo harness adattivo totalizza un comunque eccellente 80,8% sullo stesso benchmark .
Sul più difficile benchmark SWE-bench Pro, Opus 4.7 ha ottenuto il 64,3%, davanti a GPT-5.4 (57,7%), GPT-5.5 (58,6%) e Gemini 3.1 Pro (54,2%) . Opus 4.8 ha poi spinto SWE-bench Pro al 69,2%
.
Le performance di Claude Code si estendono a diversi benchmark:
Nelle revisioni cieche della qualità del codice, Claude Code vince il 67% dei confronti diretti con i concorrenti .
Vale la pena notare che il panorama competitivo rimane fluido. Il GPT-5.5 di OpenAI ha brevemente preso la guida su SWE-bench Verified con l'88,7% a metà 2026, creando una situazione in cui Claude Code dominava su SWE-bench Pro e GPT-5.5 su Verified . La classifica continua a evolversi con ogni rilascio di modelli.
Il posizionamento di Claude Code si è consolidato attorno al concetto di autonomia a lungo termine. Claude Opus 4.8 è descritto come avente "la coerenza e l'autonomia per continuare a lavorare su compiti di lunga durata" ed è etichettato come "il modello più capace per il ragionamento complesso, il coding agentico a lungo termine e il lavoro ad alta autonomia" .
Questa enfasi sul funzionamento indipendente e sostenuto, piuttosto che sulla semplice esecuzione di prompt, è il punto di maggiore differenziazione. Funzionalità come il dreaming, l'allocazione adattiva del calcolo e l'orchestrazione multi-agente indicano una filosofia in cui ci si aspetta che l'agente operi attraverso più sessioni, impari dai propri output e gestisca progetti complessi con un intervento minimo dello sviluppatore.
Anthropic ha anche iniziato a sottolineare l'onestà del modello come vantaggio competitivo. Il rilascio di Opus 4.8 enfatizza la volontà del modello di segnalare le incertezze ed evitare affermazioni non supportate — una scelta pragmatica e orientata alla sicurezza, rivolta agli sviluppatori che devono potersi fidare dell'output del proprio agente in ambienti di produzione .
Comments
0 comments