Із самого початку Claude Code розроблявся для практичних робочих процесів. Він міг шукати та читати код, редагувати файли, запускати тести та відправляти зміни на GitHub — і все це з командного рядка . Початковий попередній перегляд мав обмежене охоплення, але реакція розробників була миттєвою. До березня 2025 року інструмент отримав підтримку вставки зображень та @-згадування файлів; до квітня 2025 року було додано збереження сесій та функцію відновлення, що дозволило продовжувати розмови після перезапуску
.
Серія версій 0.2.x, яка тривала з лютого до запуску загальної доступності в травні, поступово стабілізувала досвід роботи в терміналі. Коли Claude Code вийшов у статусі GA, він уже був готовий до використання в промисловій розробці програмного забезпечення .
За можливостями Claude Code стоять послідовні флагманські моделі Anthropic. Кожне покоління Opus безпосередньо покращувало кодування, міркування та надійність інструменту.
Модель Claude Opus 4.5, випущена в листопаді 2025 року, позиціонувалася як найкраща у світі модель для кодування, агентів та комп'ютерного використання . Вона заклала архітектуру Opus 4.x, яка стала фундаментом платформи.
Opus 4.6 принесла значні покращення в плануванні, надійності виконання тривалих агентних завдань та роботі з великими кодовими базами. Найважливіше — вона вперше для моделей класу Opus представила контекстне вікно на 1 мільйон токенів у бета-версії .
Стрибок від Opus 4.6 до Opus 4.7 став тектонічним зрушенням у бенчмарках кодування. Лише за одне оновлення моделі Anthropic підвищила результат на SWE-bench Verified з 80,8% до 87,6% (адаптивний режим) . Також показник SWE-bench Pro зріс із 53,4% до 64,3% — це більш ніж на 10 пунктів випереджає найближчого конкурента
.
Opus 4.7 запровадила адаптивне мислення, яке динамічно розподіляє обчислювальні ресурси для кожного завдання, і стабілізувала контекстне вікно на 1 млн токенів до рівня промислової якості в Anthropic API, Amazon Bedrock та Vertex AI від Google Cloud .
Останнє оновлення моделі радше вдосконалює, ніж трансформує. Opus 4.8 базується безпосередньо на Opus 4.7, підвищуючи результати SWE-bench Pro з 64,3% до 69,2% і водночас різко зменшуючи кількість непомічених дефектів коду. Anthropic повідомила, що модель у чотири рази рідше пропускає непоміченими недоліки у власному коді, а тестувальники відзначили більшу готовність сигналізувати про невизначеність і уникати голослівних тверджень .
Важливо, що Opus 4.8 зберігає сумісність API з Opus 4.7 і пропонується за тією ж ціною. Вона також має у 2,5 рази швидший «Швидкий режим» за третину вартості попередніх моделей, що безпосередньо покращує досвід розробника в Claude Code .
Anthropic провела свою першу щорічну конференцію для розробників Code with Claude 6 травня 2026 року в Сан-Франциско з паралельними подіями в Лондоні та Токіо . Замість демонстрації нової моделі, захід був повністю зосереджений на можливостях платформи — зокрема, на функціях для Керованих агентів Claude (Claude Managed Agents).
Anthropic представила чотири функції для свого хостингового, стабільного агентного середовища виконання, яке було запущено в публічній бета-версії приблизно за місяць до того, на початку квітня 2026 року .
«Сновидіння» (Dreaming, дослідницький попередній перегляд) є найбільш концептуально амбітною функцією. Коли агенти простоюють, запланований фоновий процес переглядає до 100 минулих розмов, виявляє повторювані шаблони, робочі процеси та помилки, а потім переписує сховище пам'яті агента для підвищення ефективності. Оригінальні дані сесій залишаються незмінними — агент приймає ці оновлення пам'яті лише явно, і розробники можуть обрати ручну перевірку перед зміною пам'яті .
Цей механізм фактично дозволяє агентам покращуватися з часом без прямого перенавчання. Наразі він доступний у дослідницькому попередньому перегляді та вимагає подання заявки на доступ .
Результати (Outcomes, публічна бета) запроваджують структуровані критерії успіху. Окремий оцінювач працює в ізольованому контекстному вікні, оцінюючи результат роботи агента за рубриками, визначеними розробником. Якщо оцінка нижча за поріг, агент автоматично повторює спробу .
Мультиагентна оркестрація (Multi-Agent Orchestration, публічна бета) дозволяє провідному агенту розкладати складні завдання та розподіляти роботу між парком спеціалізованих підлеглих агентів — кожен зі своєю моделлю, підказками та інструментами — які працюють паралельно на спільній файловій системі .
Вебхуки (Webhooks, публічна бета) дозволяють агентам надсилати сповіщення до зовнішніх систем після завершення завдань, перетворюючи агентні робочі процеси з діалогових на керовані подіями .
Поряд із функціями Керованих агентів, Code with Claude включала кілька інших запусків:
Головним бенчмарковим показником Claude Code є його результат 87,6% на SWE-bench Verified, досягнутий за допомогою Claude Opus 4.7 в адаптивному режимі . Це найвищий опублікований результат серед загальнодоступних AI-агентів для кодування станом на червень 2026 року.
SWE-bench Verified — це курований набір із 500 реальних GitHub-завдань із відкритих Python-репозиторіїв, які агенти повинні вирішити від початку до кінця. Він став галузевим стандартом для оцінки агентної програмної інженерії, а зростання Claude Code в цьому рейтингу — з 80,9% на Opus 4.5 до 87,6% на Opus 4.7 — стало ключовим наративом для продукту .
Цифра 87,6% не є статичною. Вона залежить від моделі, підказок та «системи виконання» (harness) — середовища, яке організовує використання інструментів. Адаптивний режим Claude Opus 4.7 динамічно розподіляє обчислення для кожного завдання, спрямовуючи більше ресурсів на складні рефакторинги. Автономний Claude Code без цієї адаптивної системи набирає 80,8% на тому ж бенчмарку .
На складнішому бенчмарку SWE-bench Pro, який тестує вирішення більш важких реальних завдань, Opus 4.7 набрала 64,3%, випередивши GPT-5.4 (57,7%), GPT-5.5 (58,6%) та Gemini 3.1 Pro (54,2%) . Пізніше Opus 4.8 підвищила результат SWE-bench Pro до 69,2%
.
Продуктивність Claude Code охоплює кілька бенчмарків:
Варто зазначити, що конкурентна картина залишається мінливою. Модель GPT-5.5 від OpenAI ненадовго вийшла в лідери на SWE-bench Verified з показником 88,7% на початку-середині 2026 року, створивши ситуацію, коли Claude Code лідирував на SWE-bench Pro, а GPT-5.5 — на Verified . Таблиця лідерів продовжує змінюватися з кожним новим релізом.
Позиціонування Claude Code від Anthropic сфокусувалося навколо концепції довгострокової автономії. Claude Opus 4.8 описується як така, що має «послідовність та автономію, щоб продовжувати працювати над довготривалими завданнями», і спеціально позначена як «найздібніша модель Anthropic для складних міркувань, довгострокового агентного кодування та роботи з високою автономією» .
Цей акцент на сталій, незалежній роботі, а не на виконанні одноразових підказок, є тим, де Claude Code найбільш чітко вирізняється. Такі функції, як «сновидіння», адаптивний розподіл обчислень та мультиагентна оркестрація, вказують на філософію, згідно з якою агент повинен працювати між сесіями, вчитися на власних результатах і керувати складними багатофайловими проєктами з мінімальним втручанням розробника.
Anthropic також почала наголошувати на чесності моделі як на конкурентній перевагі. У релізі Opus 4.8 підкреслюється готовність моделі сигналізувати про невизначеність та уникати голослівних тверджень — це практичне формулювання, орієнтоване на безпеку, для розробників, які повинні довіряти результатам роботи свого агента в промислових середовищах .
Comments
0 comments