Od samego początku Claude Code był projektowany z myślą o praktycznych przepływach pracy dewelopera. Potrafił przeszukiwać i czytać kod, edytować pliki, uruchamiać testy oraz wysyłać zmiany do GitHuba — wszystko z poziomu wiersza poleceń . Wstępny podgląd badawczy miał ograniczony zasięg, ale reakcja deweloperów była natychmiastowa. Do marca 2025 roku narzędzie zyskało obsługę wklejania obrazów i @-wzmianek o plikach; do kwietnia 2025 roku dodano trwałość sesji i funkcję wznawiania, umożliwiającą kontynuację konwersacji z zachowaniem kontekstu między restartami
.
Seria 0.2.x, rozwijana od lutego do momentu ogólnej dostępności w maju, stopniowo stabilizowała działanie terminala. Gdy Claude Code osiągnął status GA, był już gotowy do produkcyjnej, długotrwałej pracy inżynierskiej z kodem .
Za możliwościami Claude Code stoją kolejne flagowe modele Anthropica. Każda generacja Opus bezpośrednio poprawiała zdolności kodowania, rozumowania i niezawodność narzędzia.
Claude Opus 4.5, wydany w listopadzie 2025 roku, został pozycjonowany jako najlepszy model na świecie do kodowania, agentów i interakcji z komputerem . Ustanowił architekturę Opus 4.x, która stała się fundamentem platformy.
Opus 4.6 przyniósł znaczące ulepszenia w planowaniu, niezawodności długotrwałych zadań agentowych i operowaniu w dużych bazach kodu. Co najważniejsze, wprowadził okno kontekstowe o wielkości 1 miliona tokenów w wersji beta — był to pierwszy model klasy Opus obsługujący kontekst na taką skalę .
Skok z Opus 4.6 na Opus 4.7 był przełomowy dla benchmarków kodowania. W ramach jednej premiery modelu Anthropic przeszedł z 80,8% do 87,6% w SWE-bench Verified (tryb adaptacyjny) . Wynik w SWE-bench Pro zwiększył się z 53,4% do 64,3% — dając przewagę ponad 10 punktów procentowych nad najbliższym konkurentem
.
Opus 4.7 wprowadził adaptacyjne myślenie, dynamicznie alokujące zasoby obliczeniowe do konkretnego zadania, i ustabilizował okno kontekstowe 1 mln tokenów do jakości produkcyjnej w Anthropic API, Amazon Bedrock i Vertex AI od Google Cloud .
Najnowsza aktualizacja modelu bardziej udoskonala niż transformuje. Opus 4.8 buduje bezpośrednio na Opus 4.7, podnosząc wyniki SWE-bench Pro z 64,3% do 69,2%, przy jednoczesnym drastycznym zmniejszeniu liczby niewykrytych defektów w kodzie. Anthropic poinformował, że model jest cztery razy mniej skłonny do przepuszczania niezauważonych błędów we własnym kodzie, a testerzy zaobserwowali większą gotowość do sygnalizowania niepewności i unikania niepopartych twierdzeń .
Co kluczowe, Opus 4.8 zachowuje kompatybilność API z Opus 4.7 i jest dostępny w tej samej cenie. Wprowadza również tryb szybki (Fast Mode) – 2,5 razy szybszy przy jednej trzeciej kosztów poprzednich modeli, co bezpośrednio poprawia doświadczenie dewelopera w Claude Code .
Anthropic zorganizował swoją pierwszą doroczną konferencję deweloperską, Code with Claude, 6 maja 2026 roku w San Francisco, z wydarzeniami satelitarnymi w Londynie i Tokio . Zamiast prezentować nowy model, wydarzenie w całości skoncentrowało się na możliwościach platformy — w szczególności na funkcjach dla Claude Managed Agents.
Anthropic dostarczył cztery funkcje dla swojego hostowanego, stanowego środowiska wykonawczego agentów, które weszło do publicznej bety zaledwie około miesiąc wcześniej, na początku kwietnia 2026 .
Dreaming (Podgląd badawczy) jest najbardziej ambitną koncepcyjnie z tej grupy. Gdy agenci są bezczynni, zaplanowany proces w tle przegląda do 100 przeszłych konwersacji, wyodrębnia powtarzające się wzorce, przepływy pracy i błędy, a następnie przepisuje magazyn pamięci agenta, aby zawierał informacje o wysokiej wartości sygnałowej. Oryginalne dane sesji pozostają niezmienne — agent przyjmuje te aktualizacje pamięci tylko jawnie, a deweloperzy mogą wybrać ręczne sprawdzenie przed zmianą pamięci .
Mechanizm ten skutecznie umożliwia agentom doskonalenie się w czasie bez bezpośredniego przetrenowywania. Obecnie jest dostępny w podglądzie badawczym i wymaga złożenia wniosku o dostęp .
Outcomes (Publiczna beta) wprowadza ustrukturyzowane kryteria sukcesu. Niezależny ewaluator działa w izolowanym oknie kontekstowym, oceniając wyniki agenta według zdefiniowanych przez dewelopera rubryk. Jeśli wynik spadnie poniżej progu, agent automatycznie ponawia próbę .
Multi-Agent Orchestration (Publiczna beta) pozwala agentowi wiodącemu rozkładać złożone zadania i wysyłać pracę do floty wyspecjalizowanych sub-agentów — każdy z własnym modelem, promptem i narzędziami — pracujących równolegle na współdzielonym systemie plików .
Webhooks (Publiczna beta) pozwalają agentom wysyłać powiadomienia do zewnętrznych systemów po zakończeniu zadań, przesuwając przepływy agentowe z konwersacyjnych na sterowane zdarzeniami .
Równolegle z funkcjami Managed Agents, Code with Claude zawierał kilka innych premier:
Głównym wynikiem benchmarkowym Claude Code jest 87,6% w SWE-bench Verified, osiągnięty z Claude Opus 4.7 w trybie adaptacyjnym . Wynik ten stanowi najwyższy opublikowany rezultat wśród ogólnie dostępnych agentów kodujących AI według stanu na czerwiec 2026.
SWE-bench Verified to starannie wyselekcjonowany zestaw 500 prawdziwych problemów z GitHuba z otwartoźródłowych repozytoriów Pythona, które agenci muszą rozwiązać od początku do końca. Stał się branżowym standardem referencyjnym dla agentowej inżynierii oprogramowania, a wspinaczka Claude Code na tej liście liderów — od 80,9% na Opus 4.5 do 87,6% na Opus 4.7 — była kluczową narracją produktu .
Wynik 87,6% nie jest statyczny. Zależy od modelu, promptu i „uprzęży” (ang. harness) — środowiska wykonawczego, które organizuje korzystanie z narzędzi. Tryb adaptacyjny Claude Opus 4.7 dynamicznie przydziela zasoby obliczeniowe do zadań, wysyłając więcej zasobów do złożonych refaktoryzacji. Samodzielny Claude Code bez tej adaptacyjnej uprzęży osiąga 80,8% w tym samym benchmarku .
Na trudniejszym benchmarku SWE-bench Pro — testującym rozwiązywanie trudniejszych, rzeczywistych problemów — Opus 4.7 zdobył 64,3%, wyprzedzając GPT-5.4 (57,7%), GPT-5.5 (58,6%) i Gemini 3.1 Pro (54,2%) . Opus 4.8 podniósł później SWE-bench Pro do 69,2%
.
Wydajność Claude Code rozciąga się na szereg benchmarków:
Warto zauważyć, że obraz konkurencyjny pozostaje płynny. GPT-5.5 od OpenAI na krótko objął prowadzenie w SWE-bench Verified z wynikiem 88,7% na początku 2026 roku, tworząc rozłam, w którym Claude Code prowadził w SWE-bench Pro, a GPT-5.5 w Verified . Lista liderów wciąż ewoluuje z każdą premierą modelu.
Pozycjonowanie Claude Code przez Anthropica skrystalizowało się wokół koncepcji długoterminowej autonomii. Claude Opus 4.8 jest opisywany jako posiadający „konsekwencję i autonomię do kontynuowania pracy nad długotrwałymi zadaniami” i jest specjalnie określany jako „najbardziej zdolny model Anthropica do złożonego rozumowania, długoterminowego kodowania agentowego i pracy o wysokiej autonomii” .
Ten nacisk na trwałą, niezależną pracę, zamiast jednorazowego uzupełniania promptów, stanowi najwyraźniejszy wyróżnik Claude Code. Funkcje takie jak Dreaming, adaptacyjne przydzielanie zasobów obliczeniowych i orkiestracja wieloagentowa wskazują na filozofię, w której oczekuje się, że agent będzie działał między sesjami, uczył się z własnych wyników i zarządzał złożonymi projektami wieloplikowymi przy minimalnej interwencji dewelopera.
Anthropic zaczął również podkreślać uczciwość modelu jako przewagę konkurencyjną. Premiera Opus 4.8 akcentuje gotowość modelu do sygnalizowania niepewności i unikania niepopartych twierdzeń — praktyczne, zorientowane na bezpieczeństwo ramy skierowane do deweloperów, którzy muszą ufać wynikom swojego agenta w środowiskach produkcyjnych .
Comments
0 comments