Однако полного доминирования не получилось. В другом популярном тесте — Terminal-Bench 2.1, который имитирует работу в командной строке, — лидерство сохранила модель GPT-5.5 с результатом 78.2% против 74.6% у Opus 4.8 . Внутренние тесты Anthropic также показывают значительный прогресс в задачах, связанных с экономически ценной работой: модель достигла 1890 баллов в тесте GDPval-AA, обойдя GPT-5.5 с 1769 баллами и Gemini с 1314 баллами
.
Если говорить кратко: Opus 4.8 лидирует в ключевых категориях, но не выигрывает абсолютно везде — битва ИИ-гигантов продолжается .
Впервые производитель ИИ-модели сделал «честность» центральным пунктом презентации продукта. Anthropic утверждает, что Opus 4.8 примерно в четыре раза реже, чем Opus 4.7, допускает ситуацию, когда написанный ею код содержит ошибку, а модель этого не замечает и не сообщает пользователю .
Ранние тестеры подтверждают, что модель стала гораздо чаще и явнее сообщать о своих сомнениях и неопределенности при выполнении сложных многоэтапных задач. Она менее склонна выдавать неподтвержденную информацию за чистую монету . Простыми словами, если раньше ИИ мог «постесняться» признаться, что он в чем-то не уверен, то теперь его как будто научили говорить: «Слушай, тут я не до конца уверен, давай перепроверим». Это особенно важно для бизнес-задач, где цена ошибки очень высока.
Динамические рабочие процессы (Dynamic Workflows): Эта функция в исследовательском режиме доступна в Claude Code. Она позволяет модели спланировать большую задачу, а затем распределить ее между сотнями параллельных «субагентов», которые работают одновременно. После выполнения всех частей модель перепроверяет результаты и только потом выдает финальный ответ. Это идеально подходит для масштабной миграции кода, аудита и поиска багов в огромных проектах за один сеанс .
Контроль усилий (Adjustable Engagement / Effort Control): Пользователи теперь могут сами указывать, насколько глубоко модель должна «думать» над задачей. Параметр «effort» в claude.ai и Claude Code позволяет найти баланс между качеством ответа, стоимостью токенов и скоростью. Для самых сложных задач рекомендуется уровень xhigh, а для большинства других интеллектуальных задач — не ниже high . Это позволяет бизнесу гибко управлять расходами: не платить за излишние размышления там, где они не нужны.
Кэширование промптов оплачивается отдельно: $6.25 за миллион токенов при записи кэша на 5 минут, $10 — при записи на час, и $0.50 за попадание в кэш .
Запуск Opus 4.8 — это не просто погоня за абстрактными баллами в тестах. Это продуманное обновление для корпоративных клиентов и разработчиков. Главная история — про надежность агентов, про то, что модель научилась «признаваться в незнании», и про возможность для программистов тонко настраивать соотношение цены и производительности. Ценовая политика осталась консервативной: никакого повышения для обычного API, а серьезное снижение цены быстрого режима делает высокоскоростную работу с ИИ доступнее для приложений, где важна каждая миллисекунда.
Comments
0 comments