Fra starten var Claude Code designet til praktiske udvikler-workflows. Det kunne søge og læse kode, redigere filer, køre tests og pushe til GitHub – alt sammen fra kommandolinjen . Den første preview var begrænset i omfang, men udviklernes respons var øjeblikkelig. I marts 2025 havde værktøjet fået understøttelse af indsættelse af billeder og @-omtale af filer; i april 2025 blev sessionsvedholdenhed og genoptagelsesfunktionalitet tilføjet, så samtaler kunne bevare kontekst på tværs af genstarter
.
0.2.x-serien, der strakte sig fra februar indtil lanceringen af generel tilgængelighed i maj, stabiliserede gradvist terminaloplevelsen. Da Claude Code ramte GA, var det allerede produktionsklart til vedvarende softwareudviklingsarbejde .
Bag Claude Codes evner ligger Anthropics på hinanden følgende flagskibsmodeller. Hver Opus-generation har direkte forbedret værktøjets kodning, ræsonnement og pålidelighed.
Claude Opus 4.5, udgivet i november 2025, blev positioneret som verdens bedste model til kodning, agenter og computerbrug . Den etablerede den Opus 4.x-arkitektur, der skulle blive platformens fundament.
Opus 4.6 bragte betydelige forbedringer til planlægning, pålidelighed i langvarige agentopgaver og drift i store kodebaser. Mest bemærkelsesværdigt introducerede den et kontekstvindue på 1 million tokens i beta – den første Opus-klasse model til at håndtere kontekst i denne skala .
Springet fra Opus 4.6 til Opus 4.7 var seismisk for kodningsbenchmarks. I en enkelt modeludgivelse gik Anthropic fra 80,8% til 87,6% på SWE-bench Verified (adaptiv tilstand) . Det skubbede også SWE-bench Pro fra 53,4% til 64,3% – et forspring på mere end 10 point til den nærmeste konkurrent
.
Opus 4.7 introducerede adaptiv tænkning, som dynamisk allokerer computerkraft pr. opgave, og stabiliserede 1M-token kontekstvinduet i produktionskvalitet på tværs af Anthropic API, Amazon Bedrock og Google Cloud's Vertex AI .
Den seneste modelopgradering raffinerer snarere end transformerer. Opus 4.8 bygger direkte på Opus 4.7 og forbedrer SWE-bench Pro-scorer fra 64,3% til 69,2%, mens den dramatisk reducerer antallet af uopdagede kodefejl. Anthropic rapporterede, at modellen er fire gange mindre tilbøjelig til at lade fejl i sin egen kode passere ubemærket, og at testere observerede en større villighed til at påpege usikkerhed og undgå ubegrundede påstande .
Afgørende er det, at Opus 4.8 opretholder API-kompatibilitet med Opus 4.7 og leveres til samme pris. Den bringer også en 2,5× hurtigere 'Fast Mode' til en tredjedel af prisen for tidligere modeller, hvilket direkte forbedrer udvikleroplevelsen i Claude Code .
Anthropic afholdt sin første årlige udviklerkonference, Code with Claude, den 6. maj 2026 i San Francisco med satellitarrangementer i London og Tokyo . I stedet for at præsentere en ny model, fokuserede eventen helt på platformsfunktioner – især funktioner til Claude Managed Agents.
Anthropic leverede fire funktioner til sin hostede, stateful agent-runtime, som var blevet lanceret i offentlig beta kun omkring en måned tidligere i starten af april 2026 .
Dreaming (Research Preview) er den mest konceptuelt ambitiøse i flokken. Når agenter er inaktive, gennemgår en planlagt baggrundsproces op til 100 tidligere samtaler, udtrækker tilbagevendende mønstre, arbejdsgange og fejl og omskriver derefter agentens hukommelseslager for et højere signalniveau. De originale sessionsdata forbliver uforanderlige – agenten adopterer kun disse hukommelsesopdateringer eksplicit, og udviklere kan vælge manuel gennemgang, før hukommelsen ændres .
Mekanismen gør det muligt for agenter at forbedre sig over tid uden direkte gentræning. Den er i øjeblikket tilgængelig i research preview og kræver, at man ansøger om adgang .
Outcomes (Public Beta) introducerer strukturerede succeskriterier. En separat evaluator kører i et isoleret kontekstvindue og bedømmer en agents output i forhold til udviklerdefinerede rubrikker. Hvis scoren falder under en tærskel, prøver agenten automatisk igen .
Multi-Agent Orchestration (Public Beta) tillader en ledende agent at nedbryde komplekse opgaver og uddelegere arbejde til en flåde af specialiserede underagenter – hver med sin egen model, prompt og værktøjer – der kører parallelt på et delt filsystem .
Webhooks (Public Beta) lader agenter sende notifikationer til eksterne systemer, når opgaver er fuldført, og flytter agentiske arbejdsgange fra konverserende til hændelsesdrevne .
Sammen med Managed Agents-funktionerne inkluderede Code with Claude flere andre lanceringer:
Claude Codes overskrift-benchmarktal er dets 87,6% score på SWE-bench Verified, opnået med Claude Opus 4.7 i adaptiv tilstand . Denne score repræsenterer det højeste publicerede resultat blandt generelt tilgængelige AI-kodningsagenter i juni 2026.
SWE-bench Verified er et kurateret sæt af 500 virkelige GitHub-issues fra open-source Python-repositories, som agenter skal løse fuldt ud. Det er blevet branchens standardreference for agentisk softwareudvikling, og Claude Codes opstigning på denne leaderboard – fra 80,9% på Opus 4.5 til 87,6% på Opus 4.7 – har været en central fortælling for produktet .
Tallet på 87,6% er ikke statisk. Det afhænger af modellen, prompten og "systemet" – det runtime-miljø, der orkestrerer værktøjsbrug. Claude Opus 4.7s adaptive tilstand allokerer dynamisk computerkraft pr. opgave og sender flere ressourcer til komplekse refaktoreringer. Standalone Claude Code uden dette adaptive system scorer 80,8% på den samme benchmark .
På den sværere SWE-bench Pro-benchmark – som tester løsning af sværere, virkelige issues – scorede Opus 4.7 64,3%, foran GPT-5.4 (57,7%), GPT-5.5 (58,6%) og Gemini 3.1 Pro (54,2%) . Opus 4.8 skubbede senere SWE-bench Pro til 69,2%
.
Claude Codes ydelse strækker sig over flere benchmarks:
I blinde kodekvalitetsanmeldelser vinder Claude Code 67% af direkte sammenligninger med konkurrenter .
Det er værd at bemærke, at konkurrencebilledet forbliver dynamisk. OpenAIs GPT-5.5 overtog kortvarigt føringen på SWE-bench Verified med 88,7% tidligere i midten af 2026, hvilket skabte en situation, hvor Claude Code førte på SWE-bench Pro, og GPT-5.5 førte på Verified . Leaderboardet fortsætter med at udvikle sig med hver modeludgivelse.
Anthropics positionering af Claude Code har samlet sig omkring konceptet langsigtet autonomi. Claude Opus 4.8 beskrives som havende "den konsistens og autonomi til at fortsætte med at arbejde på langvarige opgaver" og er specifikt mærket som "Anthropics mest kapable model til komplekst ræsonnement, langsigtet agentisk kodning og arbejde med høj autonomi" .
Denne vægt på vedvarende, uafhængig drift snarere end prompt-baseret engangsfuldførelse er, hvor Claude Code tydeligst differentierer sig. Funktioner som dreaming, adaptiv allokering af computerkraft og multi-agent orchestration peger alle på en filosofi, hvor agenten forventes at operere på tværs af sessioner, lære af sit eget output og håndtere komplekse projekter med mange filer med minimal udviklerindblanding.
Anthropic er også begyndt at fremhæve modelærlighed som en konkurrencefordel. Opus 4.8s udgivelse understreger modellens villighed til at påpege usikkerhed og undgå at fremsætte ubegrundede påstande – en praktisk, sikkerhedsorienteret indramning rettet mod udviklere, der har brug for at stole på deres agents output i produktionsmiljøer .
Comments
0 comments