Från början var Claude Code utformat för praktiska utvecklarflöden. Det kunde söka och läsa kod, redigera filer, köra tester och pusha till GitHub – allt från kommandoraden . Den första förhandsvisningen var begränsad i räckvidd, men utvecklarnas respons var omedelbar. I mars 2025 hade verktyget fått stöd för att klistra in bilder och @-omnämnanden av filer; i april 2025 lades sessionsbeständighet och återupptagningsfunktioner till, vilket gjorde att konversationer kunde bära kontext över omstarter
.
0.2.x-serien, som sträckte sig från februari fram till den allmänna tillgänglighetslanseringen i maj, stabiliserade gradvis terminalupplevelsen. När Claude Code nådde allmän tillgänglighet var det redan produktionsredo för uthålligt mjukvaruutvecklingsarbete .
Bakom Claude Codes kapacitet ligger Anthropics successiva flaggskeppsmodeller. Varje Opus-generation har direkt förbättrat verktygets kodnings-, resonemangs- och tillförlitlighetsförmåga.
Claude Opus 4.5, som släpptes i november 2025, positionerades som världens bästa modell för kodning, agenter och datoranvändning . Den etablerade Opus 4.x-arkitekturen som skulle bli plattformens grund.
Opus 4.6 medförde betydande förbättringar i planering, tillförlitlighet för långvariga agentuppgifter och drift i stora kodbaser. Mest anmärkningsvärt introducerade den ett kontextfönster på 1 miljon token i beta – den första Opus-klassmodellen att hantera kontext i denna skala .
Hoppet från Opus 4.6 till Opus 4.7 var seismiskt för kodningsbenchmarkar. I en enda modellrelease flyttade Anthropic sig från 80,8 % till 87,6 % på SWE-bench Verified (adaptivt läge) . De tryckte också upp SWE-bench Pro från 53,4 % till 64,3 % – en ledning på över 10 procentenheter över närmaste konkurrent
.
Opus 4.7 introducerade adaptivt tänkande, vilket dynamiskt fördelar beräkningsresurser per uppgift, och stabiliserade kontextfönstret på 1 miljon token i produktionskvalitet över Anthropic API, Amazon Bedrock och Google Clouds Vertex AI .
Den senaste modelluppgraderingen förfinar snarare än transformerar. Opus 4.8 bygger direkt på Opus 4.7 och förbättrar SWE-bench Pro-resultaten från 64,3 % till 69,2 % samtidigt som andelen oupptäckta kodfel dramatiskt minskar. Anthropic rapporterade att modellen är fyra gånger mindre benägen att låta fel i sin egen kod passera oanmärkta, och att testare observerade en större villighet att flagga osäkerhet och undvika ogrundade påståenden .
Avgörande är att Opus 4.8 bibehåller API-kompatibilitet med Opus 4.7 och levereras till samma pris. Den medför också ett 2,5× snabbare snabbläge till en tredjedel av kostnaden för tidigare modeller, vilket direkt förbättrar utvecklarupplevelsen i Claude Code .
Anthropic höll sin första årliga utvecklarkonferens, Code with Claude, den 6 maj 2026 i San Francisco, med satellitevenemang i London och Tokyo . Istället för att visa upp en ny modell fokuserade evenemanget helt på plattformsfunktioner – mest noterbart funktioner för Claude Managed Agents.
Anthropic levererade fyra funktioner för sin hostade, tillståndsbevarande agentkörningstid, som hade lanserats i offentlig beta bara ungefär en månad tidigare i början av april 2026 .
Drömmande (forskningsförhandsvisning) är den konceptuellt mest ambitiösa i samlingen. När agenter är inaktiva granskar en schemalagd bakgrundsprocess upp till 100 tidigare konversationer, extraherar återkommande mönster, arbetsflöden och misstag, och skriver sedan om agentens minneslager för högre signalkvalitet. Den ursprungliga sessiondatan hålls oföränderlig – agenten antar endast dessa minnesuppdateringar explicit, och utvecklare kan välja manuell granskning innan minnet ändras .
Mekanismen gör det möjligt för agenter att förbättras över tid utan direkt omträning. Den är för närvarande tillgänglig i forskningsförhandsvisning och kräver ansökan om åtkomst .
Resultat (offentlig beta) introducerar strukturerade framgångskriterier. En separat utvärderare körs i ett isolerat kontextfönster och betygsätter en agents utdata mot utvecklardefinierade bedömningsmatriser. Om poängen faller under ett tröskelvärde försöker agenten automatiskt igen .
Multi-agent-orkestrering (offentlig beta) tillåter en ledande agent att bryta ner komplexa uppgifter och skicka arbete till en flotta av specialiserade underagenter – var och en med sin egen modell, prompt och verktyg – som körs parallellt på ett delat filsystem .
Webhooks (offentlig beta) låter agenter skicka notiser till externa system när uppgifter slutförs, vilket flyttar agentarbetsflöden från konversationsdrivna till händelsestyrda .
Vid sidan av funktionerna för hanterade agenter innehöll Code with Claude flera andra lanseringar:
Claude Codes rubriksiffra är dess 87,6 % på SWE-bench Verified, uppnått med Claude Opus 4.7 i adaptivt läge . Denna poäng representerar det högsta publicerade resultatet bland allmänt tillgängliga AI-kodningsagenter från och med juni 2026.
SWE-bench Verified är en kuraterad uppsättning av 500 verkliga GitHub-ärenden från Python-repositorier med öppen källkod som agenter måste lösa från början till slut. Det har blivit branschens standardreferens för agentbaserad mjukvaruutveckling, och Claude Codes uppgång på denna topplista – från 80,9 % på Opus 4.5 till 87,6 % på Opus 4.7 – har varit ett kärnnarrativ för produkten .
Siffran 87,6 % är inte statisk. Den beror på modellen, prompten och "ramverket" – den körningsmiljö som orkestrerar verktygsanvändning. Claude Opus 4.7:s adaptiva läge fördelar dynamiskt beräkningsresurser per uppgift och skickar mer resurser till komplexa omstruktureringar. Fristående Claude Code utan detta adaptiva ramverk når 80,8 % på samma benchmark .
På det svårare SWE-bench Pro-benchmarket – som testar svårare verklig ärendelösning – nådde Opus 4.7 64,3 %, före GPT-5.4 (57,7 %), GPT-5.5 (58,6 %) och Gemini 3.1 Pro (54,2 %) . Opus 4.8 tryckte senare upp SWE-bench Pro till 69,2 %
.
Claude Codes prestanda sträcker sig över flera benchmarkar:
I blinda kodgranskningsjämförelser vinner Claude Code 67 % av direktkonfrontationerna med konkurrenter .
Det är värt att notera att konkurrensbilden förblir flytande. OpenAI:s GPT-5.5 tog kort ledningen på SWE-bench Verified med 88,7 % tidigare under mitten av 2026, vilket skapade en tudelning där Claude Code ledde på SWE-bench Pro och GPT-5.5 ledde på Verified . Topplistan fortsätter att utvecklas med varje modellrelease.
Anthropics positionering för Claude Code har samlats kring konceptet långtidshorisontell autonomi. Claude Opus 4.8 beskrivs som att ha "konsistensen och autonomin att fortsätta arbeta på långvariga uppgifter" och är specifikt märkt som "Anthropics mest kapabla modell för komplexa resonemang, långtidshorisontell agentkodning och högautonomiarbete" .
Denna betoning på uthållig, självständig drift snarare än engångspromptkomplettering är där Claude Code tydligast differentierar sig. Funktioner som drömmande, adaptiv resursallokering och multi-agent-orkestrering pekar alla mot en filosofi där agenten förväntas arbeta över sessioner, lära sig av sin egen utdata och hantera komplexa projekt med flera filer med minimal utvecklarintervention.
Anthropic har också börjat betona modellärlighet som en konkurrensfördel. Lanseringen av Opus 4.8 betonar modellens villighet att flagga osäkerhet och undvika ogrundade påståenden – en praktisk, säkerhetsorienterad inramning riktad till utvecklare som behöver lita på sin agents utdata i produktionsmiljöer .
Comments
0 comments