Claude Opus 4.7 лучше рассматривать не как модель «с одной главной цифрой», а как систему, нацеленную на сложное рассуждение, агентное программирование и длинные рабочие процессы. В документации Anthropic Opus 4.7 описан как самый сильный общедоступный модельный вариант компании для complex reasoning и agentic coding [1]. AWS, представляя модель в Amazon Bedrock, также пишет об улучшениях по сравнению с Opus 4.6 в production-сценариях: агентном кодинге, knowledge work, понимании визуальных данных и длительных задачах [
7].
Самый заметный показатель для разработчиков — 87,6% в SWE-bench Verified, опубликованный AWS со ссылкой на данные Anthropic [7]. Но читать его стоит вместе с другими метриками: AWS отдельно отмечает, что для максимальной отдачи Opus 4.7 могут понадобиться изменения в промптах и настройка harness — тестовой обвязки, на которой запускается оценка [
7].
Ключевые результаты
| Сценарий | Benchmark | Заявленный результат | Как это читать |
|---|---|---|---|
| Кодинг и агенты | SWE-bench Verified | 87,6% | Самый цитируемый ориентир для оценки Claude Opus 4.7 в задачах разработки ПО [ |
| Кодинг и агенты | SWE-bench Pro | 64,3% | Дополнительный срез для более требовательных или иначе устроенных software-задач [ |
| Агенты в терминале | Terminal-Bench 2.0 | 69,4% | Важен, если модель должна работать в средах, похожих на терминал, и взаимодействовать с инструментами [ |
| Финансовые агенты | Finance Agent v1.1 | 64,4% | Ближе к сценариям финансового анализа и автоматизации [ |
| Внутренний coding-бенчмарк | 93 задачи | +13% по доле решенных задач к Opus 4.6 | Относительное улучшение в конкретной оценке, а не обещание такого же прироста в любом проекте [ |
| Внутренний research-agent | Общий score | 0,715 | Anthropic описывает это как сильный результат для многошаговой работы в своем внутреннем benchmark [ |
| Внутренний research-agent | General Finance | 0,813 против 0,767 у Opus 4.6 | Указывает на улучшение в финансовом модуле внутренней оценки Anthropic [ |
Что на практике означает 87,6% в SWE-bench Verified
Для команд, которые выбирают модель как coding agent, SWE-bench Verified — самый понятный заголовочный показатель из доступных источников: AWS приводит для Claude Opus 4.7 результат 87,6% [7]. Это хорошо согласуется с позиционированием Anthropic: модель рассчитана на сложное рассуждение и агентное программирование [
1].
Но этот процент не означает, что модель будет одинаково успешно выполнять любые задачи — от анализа документов до работы с таблицами или финансовых расчетов. SWE-bench Verified измеряет конкретный класс способностей, связанных с программной инженерией. Для технического выбора его стоит смотреть вместе с SWE-bench Pro и Terminal-Bench 2.0, особенно если ваш сценарий предполагает не только написание кода, но и работу с окружением, командами и инструментами [6][
7].
Проще говоря: 87,6% — сильный аргумент в пользу Opus 4.7 для coding agents, но не универсальная оценка интеллекта модели.
Почему в разных местах встречаются разные цифры
По Claude Opus 4.7 уже есть расхождения в публичных пересказах. Например, один вторичный обзор указывает 82,4% в SWE-bench Verified, тогда как AWS приводит 87,6% [2][
7]. Поэтому сравнение «по одному числу» легко вводит в заблуждение.
Более надежный подход — всегда фиксировать три вещи: название benchmark, точный score и источник. Если речь идет о внутреннем отчете, презентации для руководства или выборе модели для продакшена, стоит также указать, на какой тестовой обвязке и с какими промптами проводилась оценка. Это особенно важно потому, что AWS прямо предупреждает: Opus 4.7 может потребовать изменения prompting-подхода и настройки harness, чтобы показать лучший результат [7].
Какой benchmark смотреть под свой сценарий
Если основной сценарий — разработка ПО, начинайте с SWE-bench Verified, но не останавливайтесь на нем. SWE-bench Pro и Terminal-Bench 2.0 помогают понять, как модель смотрится в более широком наборе software-задач и в сценариях, где агенту нужно действовать через терминал или инструменты [6][
7].
Если вам важны финансы или исследовательские агенты, ближе к теме внутренние данные Anthropic по research-agent: Opus 4.7 получил 0,715 общего score, а в модуле General Finance — 0,813 против 0,767 у Opus 4.6 [8]. При этом такие результаты стоит читать именно как внутреннюю оценку Anthropic, а не как независимый публичный benchmark.
Если речь о длинных корпоративных workflow, публичные описания делают акцент на длительных задачах, более точном следовании инструкциям и работе в условиях неоднозначности [7]. Но здесь benchmark — только отправная точка. Реальная проверка должна повторять ваш стек: репозитории, инструменты, ограничения, формат промптов и критерии приемки.
Вывод
Самая сильная и простая для цитирования цифра Claude Opus 4.7 — 87,6% в SWE-bench Verified, особенно если речь идет об агентном кодинге [7]. Но ответственная интерпретация шире: у модели также указаны 64,3% в SWE-bench Pro, 69,4% в Terminal-Bench 2.0 и 64,4% в Finance Agent v1.1, а Anthropic отдельно выделяет внутренние улучшения в многошаговой research-работе и финансовом модуле [
7][
8].
Итоговый вопрос должен звучать не «какой у Claude Opus 4.7 benchmark?», а «какой benchmark ближе всего к моему реальному workflow?». Для программирования SWE-bench Verified — хороший старт. Для терминальных агентов, финансовых задач и research-сценариев дополнительные результаты могут оказаться не менее важными.




