ОтчетыОпубликовано2 месяца назадLast edited в прошлом месяце24 источники

Claude Opus 4.8: Новый флагман от Anthropic с упором на честность и агентное программирование

Claude Opus 4.8 набрал 69.2% в тесте SWE Bench Pro, обойдя GPT 5.5 (58.6%) и Gemini 3.1 Pro (54.2%), но уступил GPT 5.5 в тесте Terminal Bench 2.1. Стандартные цены остались прежними: $5 за миллион входных токенов и $25 за миллион выходных.

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

Компания Anthropic 28 мая 2026 года официально представила Claude Opus 4.8 — свою самую мощную общедоступную ИИ-модель . Это прямое обновление модели Opus 4.7, и оно сфокусировано на трех ключевых направлениях: программировании, длительных агентных задачах (когда ИИ действует как самостоятельный сотрудник) и корпоративной надежности. Стоимость стандартного использования не изменилась, а вместе с моделью запущен значительно подешевевший быстрый режим и новые инструменты для рабочих процессов .

Результаты тестов: как Opus 4.8 выглядит на фоне конкурентов

Главной метрикой, которую все обсуждают, стал тест на агентное программирование SWE-Bench Pro. По собственным данным Anthropic, Opus 4.8 набрал в нем 69.2%, что значительно выше, чем 64.3% у предшественника, 58.6% у OpenAI GPT-5.5 и 54.2% у Google Gemini 3.1 Pro . Этот тест проверяет способность модели не просто писать код, а самостоятельно решать комплексные задачи из реальных IT-проектов.

Однако полного доминирования не получилось. В другом популярном тесте — Terminal-Bench 2.1, который имитирует работу в командной строке, — лидерство сохранила модель GPT-5.5 с результатом 78.2% против 74.6% у Opus 4.8 . Внутренние тесты Anthropic также показывают значительный прогресс в задачах, связанных с экономически ценной работой: модель достигла 1890 баллов в тесте GDPval-AA, обойдя GPT-5.5 с 1769 баллами и Gemini с 1314 баллами .

Если говорить кратко: Opus 4.8 лидирует в ключевых категориях, но не выигрывает абсолютно везде — битва ИИ-гигантов продолжается .

Главная фишка: «Честность» как техническая характеристика

Впервые производитель ИИ-модели сделал «честность» центральным пунктом презентации продукта. Anthropic утверждает, что Opus 4.8 примерно в четыре раза реже, чем Opus 4.7, допускает ситуацию, когда написанный ею код содержит ошибку, а модель этого не замечает и не сообщает пользователю .

Ранние тестеры подтверждают, что модель стала гораздо чаще и явнее сообщать о своих сомнениях и неопределенности при выполнении сложных многоэтапных задач. Она менее склонна выдавать неподтвержденную информацию за чистую монету . Простыми словами, если раньше ИИ мог «постесняться» признаться, что он в чем-то не уверен, то теперь его как будто научили говорить: «Слушай, тут я не до конца уверен, давай перепроверим». Это особенно важно для бизнес-задач, где цена ошибки очень высока.

Динамические рабочие процессы и контроль усилий

Вместе с моделью Anthropic запустила новые функции для разработчиков и опытных пользователей .

Динамические рабочие процессы (Dynamic Workflows): Эта функция в исследовательском режиме доступна в Claude Code. Она позволяет модели спланировать большую задачу, а затем распределить ее между сотнями параллельных «субагентов», которые работают одновременно. После выполнения всех частей модель перепроверяет результаты и только потом выдает финальный ответ. Это идеально подходит для масштабной миграции кода, аудита и поиска багов в огромных проектах за один сеанс .

Контроль усилий (Adjustable Engagement / Effort Control): Пользователи теперь могут сами указывать, насколько глубоко модель должна «думать» над задачей. Параметр «effort» в claude.ai и Claude Code позволяет найти баланс между качеством ответа, стоимостью токенов и скоростью. Для самых сложных задач рекомендуется уровень xhigh, а для большинства других интеллектуальных задач — не ниже high . Это позволяет бизнесу гибко управлять расходами: не платить за излишние размышления там, где они не нужны.

Цены: стабильность и приятный сюрприз

Стандартные цены на API не изменились по сравнению с предыдущим поколением :

Обычный режим: $5 за миллион входных токенов, $25 за миллион выходных .
Быстрый режим (Fast Mode): $10 за миллион входных токенов, $50 за миллион выходных. Этот режим работает примерно в 2.5 раза быстрее и при этом стал примерно в 3 раза дешевле, чем быстрый режим у прошлых моделей .

Кэширование промптов оплачивается отдельно: $6.25 за миллион токенов при записи кэша на 5 минут, $10 — при записи на час, и $0.50 за попадание в кэш .

Что этот релиз значит для рынка ИИ

Запуск Opus 4.8 — это не просто погоня за абстрактными баллами в тестах. Это продуманное обновление для корпоративных клиентов и разработчиков. Главная история — про надежность агентов, про то, что модель научилась «признаваться в незнании», и про возможность для программистов тонко настраивать соотношение цены и производительности. Ценовая политика осталась консервативной: никакого повышения для обычного API, а серьезное снижение цены быстрого режима делает высокоскоростную работу с ИИ доступнее для приложений, где важна каждая миллисекунда.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Claude Opus 4.8: Новый флагман от Anthropic с упором на честность и агентное программирование»?

Claude Opus 4.8 набрал 69.2% в тесте SWE Bench Pro, обойдя GPT 5.5 (58.6%) и Gemini 3.1 Pro (54.2%), но уступил GPT 5.5 в тесте Terminal Bench 2.1.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Ключевой упор сделан на надежность и «честность»: модель в 4 раза реже пропускает ошибки в своем коде и научилась явно сообщать о своих сомнениях.

Источники

← Back to Trending