Vanaf dag één was Claude Code ontworpen voor de praktische workflow van een ontwikkelaar. Het kon code doorzoeken en lezen, bestanden bewerken, tests uitvoeren en wijzigingen naar GitHub pushen — allemaal via de commandoregel . De tool was aanvankelijk beperkt beschikbaar, maar de reactie van ontwikkelaars liet niet lang op zich wachten. In maart 2025 volgde ondersteuning voor het plakken van afbeeldingen en het @-taggen van bestanden, en in april 2025 werden sessiepersistentie en een hervatfunctie toegevoegd om gesprekken over meerdere sessies heen te laten doorlopen
. De 0.2.x-versies stabiliseerden de terminalervaring totdat Claude Code met de GA-lancering echt klaar was voor grootschalig software-engineeringwerk
.
De ware kracht achter Claude Code wordt geleverd door Anthropic's steeds krachtigere vlaggenschipmodellen. Elke Opus-generatie heeft de codeer-, redeneer- en betrouwbaarheidsvaardigheden van de agent direct verbeterd.
Claude Opus 4.5 werd in november 2025 gepositioneerd als 'het beste model ter wereld voor coderen, agents en computergebruik' . Het legde de basis voor de Opus 4.x-architectuur die het platform blijft domineren.
Opus 4.6 bracht aanzienlijke verbeteringen op het gebied van planning, de betrouwbaarheid van langlopende agenttaken en operaties binnen grote codebases. Het meest opvallende was de introductie van een contextvenster van maar liefst 1 miljoen tokens, een primeur voor de Opus-klasse .
De sprong van 4.6 naar 4.7 was seismisch voor de coding-benchmarks. In één modelrelease ging Anthropic van 80,8% naar 87,6% op de SWE-bench Verified-test (in adaptieve modus) . Op de zwaardere SWE-bench Pro schoot de score van 53,4% naar 64,3%, wat een voorsprong van meer dan 10 procentpunten op de dichtstbijzijnde concurrent betekende
. Opus 4.7 introduceerde 'adaptief denken', waarbij per taak dynamisch rekenkracht wordt toegewezen, en stabiliseerde het contextvenster van 1 miljoen tokens op productiekwaliteit
.
De nieuwste upgrade is eerder een verfijning dan een revolutie. Opus 4.8 bouwt direct voort op zijn voorganger en stuwt de SWE-bench Pro-score van 64,3% naar 69,2%, terwijl het aantal onopgemerkte codedefecten drastisch afneemt. Anthropic meldt dat het model vier keer minder vaak fouten in zijn eigen code laat zitten en dat testers een grotere bereidheid opmerkten om onzekerheden te benoemen en ongefundeerde claims te vermijden . Cruciaal is dat Opus 4.8 dezelfde API-compatibiliteit en prijs handhaaft. Bovendien is er een 2,5 keer snellere 'Fast Mode' die een derde kost van wat eerdere modellen deden, wat de ontwikkelervaring in Claude Code direct ten goede komt
.
Op 6 mei 2026 hield Anthropic haar allereerste jaarlijkse ontwikkelaarsconferentie, 'Code with Claude', in San Francisco, met satellietsessies in Londen en Tokio . In plaats van een nieuw model te onthullen, lag de focus volledig op nieuwe platformmogelijkheden. De sterren van de show waren de functies voor Claude Managed Agents.
Slechts een maand na de publieke bètalancering van Claude Managed Agents begin april 2026, voegde Anthropic vier grote functies toe aan deze gehoste, 'stateful' agentomgeving .
Dromen (Research Preview) is zonder twijfel de meest ambitieuze en filosofische toevoeging. Wanneer een agent inactief is, bladert een gepland achtergrondproces door de laatste 100 conversaties. Het destilleert terugkerende patronen, workflows en fouten, en herschrijft vervolgens het geheugen van de agent om het 'signaal' te verhogen. De originele sessiedata blijft onaangetast; een agent neemt de lessen uit zijn 'dromen' alleen expliciet over, en de ontwikkelaar kan handmatige goedkeuring vereisen voordat zijn geheugen wordt aangepast . Dit mechanisme stelt een AI-agent in staat om te leren en te verbeteren zonder opnieuw getraind te hoeven worden. De functie is momenteel alleen in research preview en vereist speciale toegang
.
Outcomes (Publieke Beta) introduceert gestructureerde succescriteria. Een aparte evaluator in een geïsoleerde context beoordeelt de output van een agent op basis van een door de ontwikkelaar opgesteld beoordelingskader. Als de score onder de drempel blijft, probeert de agent het automatisch opnieuw .
Multi-Agent Orchestration (Publieke Beta) laat een 'lead agent' een complexe taak opsplitsen en het werk verdelen onder een vloot van gespecialiseerde sub-agenten. Elk van die agenten kan zijn eigen model, prompt en tools hebben, en ze werken parallel op een gedeeld bestandssysteem .
Webhooks (Publieke Beta) stellen agenten in staat om externe systemen een seintje te geven wanneer een taak is afgerond. Hiermee transformeren agentic workflows van een reactief gespreksmodel naar een proactief, event-driven systeem .
Naast de Managed Agents-functies waren er nog andere opvallende lanceringen:
Het paradepaardje van Claude Code is de score van 87,6% op de SWE-bench Verified-benchmark, behaald met Claude Opus 4.7 in adaptieve modus . Dit is de hoogst gepubliceerde score door een algemeen beschikbare AI-codetool tot nu toe.
De SWE-bench Verified is de industriestandaard. Het is een samengestelde set van 500 echte GitHub-issues uit open-source Python-repositories die een agent zelfstandig en volledig moet oplossen. Claude Code's gestage klim op dit leaderboard — van 80,9% met Opus 4.5 naar 87,6% met Opus 4.7 — is de centrale verhaallijn van het product .
De score van 87,6% is niet statisch. Hij hangt af van het model, de prompt en het zogenaamde 'harnas' — de runtime-omgeving die het gereedschapsgebruik orkestreert. De adaptieve modus van Claude Opus 4.7 bepaalt dynamisch hoeveel denkkracht een taak nodig heeft. Zonder dit 'adaptieve harnas' haalt Claude Code 'slechts' 80,8% op dezelfde test .
Op de zwaardere SWE-bench Pro, die agenten test op het oplossen van nóg complexere problemen, scoorde Opus 4.7 met 64,3% ruim voor op concurrenten als GPT-5.4 (57,7%) en Gemini 3.1 Pro (54,2%) . Opus 4.8 dreef dat later op naar 69,2%
.
In blinde codekwaliteitsbeoordelingen wint Claude Code 67% van de rechtstreekse confrontaties . Toch is het wedstrijdbeeld niet statisch. OpenAI's GPT-5.5 nam halverwege 2026 kortstondig de leiding op SWE-bench Verified met 88,7%, wat een fascinerende splitsing creëerde: Claude Code leidde op SWE-bench Pro, terwijl GPT-5.5 de Verified-score aanvoerde
. Met elke modelrelease verschuiven de krachtsverhoudingen op het leaderboard.
Anthropic's strategie voor Claude Code draait steeds duidelijker om langetermijnautonomie. Claude Opus 4.8 wordt omschreven als een model met "de consistentie en autonomie om aan langlopende taken te blijven werken" en staat te boek als "Anthropic's meest capabele model voor complex redeneren, langdurig agentic coderen en werk met een hoge mate van autonomie" .
Deze nadruk op zelfstandig en aanhoudend functioneren, in plaats van het simpelweg afhandelen van losse prompts, is waar Claude Code zich echt onderscheidt. Functies als 'dromen', adaptieve rekentoewijzing en multi-agent orkestratie wijzen allemaal op een filosofie waarin van de agent wordt verwacht dat hij over meerdere sessies heen opereert, leert van zijn eigen output en complexe projecten met vele bestanden beheert met minimale tussenkomst van een ontwikkelaar.
Daarnaast begint Anthropic model-eerlijkheid te benadrukken als concurrentievoordeel. De nadruk bij Opus 4.8 op het vermogen van het model om onzekerheid aan te geven en ongefundeerde beweringen te vermijden, is een praktische, op veiligheid gerichte eigenschap voor ontwikkelaars die moeten kunnen vertrouwen op de output van hun agent in een productieomgeving .
Comments
0 comments