ОтветыОпубликовано28 апр. 2026Last edited 6 мая 20265 источники

Бенчмарки Claude Opus 4.7: 87,6% в SWE-bench Verified и как это читать

Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7]. Дополнительно фигурируют 64,3% в SWE bench Pro, 69,4% в Terminal Bench 2.0 и 64,4% в Finance Agent v1.1 — эти циф...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Ilustración editorial de benchmarks de Claude Opus 4.7 con gráficos de rendimiento y código — Claude Opus 4.7 benchmarks: 87.6% en SWE-bench Verified y cómo interpretarloClaude Opus 4.7 destaca por sus resultados en benchmarks de coding agéntico, aunque cada score mide un tipo de flujo distinto.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 benchmarks: 87.6% en SWE-bench Verified y cómo interpretarlo. Article summary: Si necesitas una cifra rápida: AWS reporta 87.6% en SWE bench Verified para Claude Opus 4.7 en coding/agentes, pero no debe leerse como un rendimiento universal porque otras fuentes publican cifras distintas y la conf.... Topic tags: ai, anthropic, claude, ai benchmarks, coding agents. Reference image context from search candidates: Reference image 1: visual subject "# Anthropic releases Claude Opus 4.7 with benchmark-leading coding and agentic performance. *In short: Anthropic has released Claude Opus 4.7, its most capable generally available" source context "Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Pro" Reference image 2: visual subject "Benchmark comparison table showing Cl
openai.com

Claude Opus 4.7 лучше рассматривать не как модель «с одной главной цифрой», а как систему, нацеленную на сложное рассуждение, агентное программирование и длинные рабочие процессы. В документации Anthropic Opus 4.7 описан как самый сильный общедоступный модельный вариант компании для complex reasoning и agentic coding ^[1]. AWS, представляя модель в Amazon Bedrock, также пишет об улучшениях по сравнению с Opus 4.6 в production-сценариях: агентном кодинге, knowledge work, понимании визуальных данных и длительных задачах ^[7].

Самый заметный показатель для разработчиков — 87,6% в SWE-bench Verified, опубликованный AWS со ссылкой на данные Anthropic ^[7]. Но читать его стоит вместе с другими метриками: AWS отдельно отмечает, что для максимальной отдачи Opus 4.7 могут понадобиться изменения в промптах и настройка harness — тестовой обвязки, на которой запускается оценка ^[7].

Ключевые результаты

Сценарий	Benchmark	Заявленный результат	Как это читать
Кодинг и агенты	SWE-bench Verified	87,6%	Самый цитируемый ориентир для оценки Claude Opus 4.7 в задачах разработки ПО ^[7].
Кодинг и агенты	SWE-bench Pro	64,3%	Дополнительный срез для более требовательных или иначе устроенных software-задач ^[6]^[7].
Агенты в терминале	Terminal-Bench 2.0	69,4%	Важен, если модель должна работать в средах, похожих на терминал, и взаимодействовать с инструментами ^[6]^[7].
Финансовые агенты	Finance Agent v1.1	64,4%	Ближе к сценариям финансового анализа и автоматизации ^[7].
Внутренний coding-бенчмарк	93 задачи	+13% по доле решенных задач к Opus 4.6	Относительное улучшение в конкретной оценке, а не обещание такого же прироста в любом проекте ^[6].
Внутренний research-agent	Общий score	0,715	Anthropic описывает это как сильный результат для многошаговой работы в своем внутреннем benchmark ^[8].
Внутренний research-agent	General Finance	0,813 против 0,767 у Opus 4.6	Указывает на улучшение в финансовом модуле внутренней оценки Anthropic ^[8].

Что на практике означает 87,6% в SWE-bench Verified

Для команд, которые выбирают модель как coding agent, SWE-bench Verified — самый понятный заголовочный показатель из доступных источников: AWS приводит для Claude Opus 4.7 результат 87,6% ^[7]. Это хорошо согласуется с позиционированием Anthropic: модель рассчитана на сложное рассуждение и агентное программирование ^[1].

Но этот процент не означает, что модель будет одинаково успешно выполнять любые задачи — от анализа документов до работы с таблицами или финансовых расчетов. SWE-bench Verified измеряет конкретный класс способностей, связанных с программной инженерией. Для технического выбора его стоит смотреть вместе с SWE-bench Pro и Terminal-Bench 2.0, особенно если ваш сценарий предполагает не только написание кода, но и работу с окружением, командами и инструментами ^[6]^[7].

Проще говоря: 87,6% — сильный аргумент в пользу Opus 4.7 для coding agents, но не универсальная оценка интеллекта модели.

Почему в разных местах встречаются разные цифры

По Claude Opus 4.7 уже есть расхождения в публичных пересказах. Например, один вторичный обзор указывает 82,4% в SWE-bench Verified, тогда как AWS приводит 87,6% ^[2]^[7]. Поэтому сравнение «по одному числу» легко вводит в заблуждение.

Более надежный подход — всегда фиксировать три вещи: название benchmark, точный score и источник. Если речь идет о внутреннем отчете, презентации для руководства или выборе модели для продакшена, стоит также указать, на какой тестовой обвязке и с какими промптами проводилась оценка. Это особенно важно потому, что AWS прямо предупреждает: Opus 4.7 может потребовать изменения prompting-подхода и настройки harness, чтобы показать лучший результат ^[7].

Какой benchmark смотреть под свой сценарий

Если основной сценарий — разработка ПО, начинайте с SWE-bench Verified, но не останавливайтесь на нем. SWE-bench Pro и Terminal-Bench 2.0 помогают понять, как модель смотрится в более широком наборе software-задач и в сценариях, где агенту нужно действовать через терминал или инструменты ^[6]^[7].

Если вам важны финансы или исследовательские агенты, ближе к теме внутренние данные Anthropic по research-agent: Opus 4.7 получил 0,715 общего score, а в модуле General Finance — 0,813 против 0,767 у Opus 4.6 ^[8]. При этом такие результаты стоит читать именно как внутреннюю оценку Anthropic, а не как независимый публичный benchmark.

Если речь о длинных корпоративных workflow, публичные описания делают акцент на длительных задачах, более точном следовании инструкциям и работе в условиях неоднозначности ^[7]. Но здесь benchmark — только отправная точка. Реальная проверка должна повторять ваш стек: репозитории, инструменты, ограничения, формат промптов и критерии приемки.

Вывод

Самая сильная и простая для цитирования цифра Claude Opus 4.7 — 87,6% в SWE-bench Verified, особенно если речь идет об агентном кодинге ^[7]. Но ответственная интерпретация шире: у модели также указаны 64,3% в SWE-bench Pro, 69,4% в Terminal-Bench 2.0 и 64,4% в Finance Agent v1.1, а Anthropic отдельно выделяет внутренние улучшения в многошаговой research-работе и финансовом модуле ^[7]^[8].

Итоговый вопрос должен звучать не «какой у Claude Opus 4.7 benchmark?», а «какой benchmark ближе всего к моему реальному workflow?». Для программирования SWE-bench Verified — хороший старт. Для терминальных агентов, финансовых задач и research-сценариев дополнительные результаты могут оказаться не менее важными.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7].
Дополнительно фигурируют 64,3% в SWE bench Pro, 69,4% в Terminal Bench 2.0 и 64,4% в Finance Agent v1.1 — эти цифры важны для сценариев с кодом, терминалом и финансовыми агентами [6][7].
Сравнивая результаты, нужно указывать benchmark, score и источник: вторичный обзор приводит 82,4% в SWE bench Verified, а AWS отдельно предупреждает о важности настройки промптов и тестовой обвязки [2][7].

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Opus 4.7: 87,6% в SWE-bench Verified и как это читать»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Сравнивая результаты, нужно указывать benchmark, score и источник: вторичный обзор приводит 82,4% в SWE bench Verified, а AWS отдельно предупреждает о важности настройки промптов и тестовой обвязки [2][7].

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ

Claude Security: что умеет бета-сканер кода от Anthropic

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI

Grok 4.3 API: как 1M context и цена $1,25/$2,50 меняют конкуренцию моделей

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta будет проверять возраст с помощью ИИ: что изменится в Instagram и Facebook

Meta усиливает ИИ-проверку возраста: новые правила для подростков в ЕС, США и Бразилии

I have set up some Touchup settings in Zoom Workplace. Do these settings apply when I join a Zoom meeting on the browser without having logg

Сработает ли ретушь Zoom в браузере без входа в аккаунт?

Применяются ли настройки Touch Up Zoom при входе в встречу через браузер?

Исследовательский разговор

Вы25 апр. 2026

Вопрос исследования

¿Cuál es el benchmark de Claude Opus 4.7?

Studio Global AI25 апр. 202612 источники

Цитируемый ответ

Depende de qué benchmark te interese. Para Claude Opus 4.7, los números más citados son de coding/agentes: 87.6% en SWE-bench Verified, 64.3% en SWE-bench Pro, 69.4% en Terminal-Bench 2.0 y 64.4% en Finance Agent v1.1, según AWS citando datos de Anthropic ^[7].

Anthropic describe a Claude Opus 4.7 como una mejora sobre Opus 4.6 en ingeniería de software avanzada, tareas largas, seguimiento de instrucciones y visión ^[8].
En un benchmark interno de coding de 93 tareas, Opus 4.7 mejoró la “resolución” un 13% frente a Opus 4.6 ^[8].
En un benchmark interno de “research-agent”, Opus 4.7 empató el mejor score general con 0.715 y obtuvo 0.813 en el módulo de General Finance frente a 0.767 de Opus 4.6 ^[8].
En benchmarks públicos/semipúblicos citados por AWS: SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, Terminal-Bench 2.0 69.4% y Finance Agent v1.1 64.4% ^[7].
Ojo: hay fuentes secundarias que reportan cifras distintas —por ejemplo, 82.4% en SWE-bench Verified—, así que para una cifra “oficial” conviene priorizar Anthropic/AWS y especificar el harness o configuración usada ^[2]^[7].

Si me dices si lo quieres comparar contra GPT-5.5, Gemini o Claude Sonnet 4.6, te preparo una tabla breve.

Источники

[1] Models overview - Claude API Docsplatform.claude.com
Feature Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5 --- --- Description Our most capable generally available model for complex reasoning and agentic coding The best combination of speed and intelligence The fastest model with near-frontier intelligen...
[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[6] Claude Opus 4.7: Pricing, Benchmarks & Context Window - ALM Corpalmcorp.com
For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...
[7] Introducing Anthropic’s Claude Opus 4.7 model in Amazon Bedrock | AWS News Blogaws.amazon.com
According to Anthropic, Claude Opus 4.7 model provides improvements across the workflows that teams run in production such as agentic coding, knowledge work, visual understanding,long-running tasks. Opus 4.7 works better through ambiguity, is more thorough...
[8] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

Популярное в «Открыть»

ОтветыОпубликовано28 апр. 2026Last edited 6 мая 20265 источники

Бенчмарки Claude Opus 4.7: 87,6% в SWE-bench Verified и как это читать

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Ключевые результаты

Сценарий	Benchmark	Заявленный результат	Как это читать
Кодинг и агенты	SWE-bench Verified	87,6%	Самый цитируемый ориентир для оценки Claude Opus 4.7 в задачах разработки ПО ^[7].
Кодинг и агенты	SWE-bench Pro	64,3%	Дополнительный срез для более требовательных или иначе устроенных software-задач ^[6]^[7].
Агенты в терминале	Terminal-Bench 2.0	69,4%	Важен, если модель должна работать в средах, похожих на терминал, и взаимодействовать с инструментами ^[6]^[7].
Финансовые агенты	Finance Agent v1.1	64,4%	Ближе к сценариям финансового анализа и автоматизации ^[7].
Внутренний coding-бенчмарк	93 задачи	+13% по доле решенных задач к Opus 4.6	Относительное улучшение в конкретной оценке, а не обещание такого же прироста в любом проекте ^[6].
Внутренний research-agent	Общий score	0,715	Anthropic описывает это как сильный результат для многошаговой работы в своем внутреннем benchmark ^[8].
Внутренний research-agent	General Finance	0,813 против 0,767 у Opus 4.6	Указывает на улучшение в финансовом модуле внутренней оценки Anthropic ^[8].

Что на практике означает 87,6% в SWE-bench Verified

Почему в разных местах встречаются разные цифры

Какой benchmark смотреть под свой сценарий

Вывод

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7].
Дополнительно фигурируют 64,3% в SWE bench Pro, 69,4% в Terminal Bench 2.0 и 64,4% в Finance Agent v1.1 — эти цифры важны для сценариев с кодом, терминалом и финансовыми агентами [6][7].
Сравнивая результаты, нужно указывать benchmark, score и источник: вторичный обзор приводит 82,4% в SWE bench Verified, а AWS отдельно предупреждает о важности настройки промптов и тестовой обвязки [2][7].

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Opus 4.7: 87,6% в SWE-bench Verified и как это читать»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ

Claude Security: что умеет бета-сканер кода от Anthropic

Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI

Grok 4.3 API: как 1M context и цена $1,25/$2,50 меняют конкуренцию моделей

Meta будет проверять возраст с помощью ИИ: что изменится в Instagram и Facebook

Meta усиливает ИИ-проверку возраста: новые правила для подростков в ЕС, США и Бразилии

Сработает ли ретушь Zoom в браузере без входа в аккаунт?

Применяются ли настройки Touch Up Zoom при входе в встречу через браузер?

Исследовательский разговор

Вы25 апр. 2026

Вопрос исследования

¿Cuál es el benchmark de Claude Opus 4.7?

Studio Global AI25 апр. 202612 источники

Цитируемый ответ

Anthropic describe a Claude Opus 4.7 como una mejora sobre Opus 4.6 en ingeniería de software avanzada, tareas largas, seguimiento de instrucciones y visión ^[8].
En un benchmark interno de coding de 93 tareas, Opus 4.7 mejoró la “resolución” un 13% frente a Opus 4.6 ^[8].
En un benchmark interno de “research-agent”, Opus 4.7 empató el mejor score general con 0.715 y obtuvo 0.813 en el módulo de General Finance frente a 0.767 de Opus 4.6 ^[8].
En benchmarks públicos/semipúblicos citados por AWS: SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, Terminal-Bench 2.0 69.4% y Finance Agent v1.1 64.4% ^[7].
Ojo: hay fuentes secundarias que reportan cifras distintas —por ejemplo, 82.4% en SWE-bench Verified—, así que para una cifra “oficial” conviene priorizar Anthropic/AWS y especificar el harness o configuración usada ^[2]^[7].

Si me dices si lo quieres comparar contra GPT-5.5, Gemini o Claude Sonnet 4.6, te preparo una tabla breve.

Источники

[1] Models overview - Claude API Docsplatform.claude.com
Feature Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5 --- --- Description Our most capable generally available model for complex reasoning and agentic coding The best combination of speed and intelligence The fastest model with near-frontier intelligen...
[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[6] Claude Opus 4.7: Pricing, Benchmarks & Context Window - ALM Corpalmcorp.com
For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...
[7] Introducing Anthropic’s Claude Opus 4.7 model in Amazon Bedrock | AWS News Blogaws.amazon.com
According to Anthropic, Claude Opus 4.7 model provides improvements across the workflows that teams run in production such as agentic coding, knowledge work, visual understanding,long-running tasks. Opus 4.7 works better through ambiguity, is more thorough...
[8] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

Популярное в «Открыть»

ОтветыОпубликовано28 апр. 2026Last edited 6 мая 20265 источники

Бенчмарки Claude Opus 4.7: 87,6% в SWE-bench Verified и как это читать

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Ключевые результаты

Сценарий	Benchmark	Заявленный результат	Как это читать
Кодинг и агенты	SWE-bench Verified	87,6%	Самый цитируемый ориентир для оценки Claude Opus 4.7 в задачах разработки ПО ^[7].
Кодинг и агенты	SWE-bench Pro	64,3%	Дополнительный срез для более требовательных или иначе устроенных software-задач ^[6]^[7].
Агенты в терминале	Terminal-Bench 2.0	69,4%	Важен, если модель должна работать в средах, похожих на терминал, и взаимодействовать с инструментами ^[6]^[7].
Финансовые агенты	Finance Agent v1.1	64,4%	Ближе к сценариям финансового анализа и автоматизации ^[7].
Внутренний coding-бенчмарк	93 задачи	+13% по доле решенных задач к Opus 4.6	Относительное улучшение в конкретной оценке, а не обещание такого же прироста в любом проекте ^[6].
Внутренний research-agent	Общий score	0,715	Anthropic описывает это как сильный результат для многошаговой работы в своем внутреннем benchmark ^[8].
Внутренний research-agent	General Finance	0,813 против 0,767 у Opus 4.6	Указывает на улучшение в финансовом модуле внутренней оценки Anthropic ^[8].

Что на практике означает 87,6% в SWE-bench Verified

Почему в разных местах встречаются разные цифры

Какой benchmark смотреть под свой сценарий

Вывод

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7].
Дополнительно фигурируют 64,3% в SWE bench Pro, 69,4% в Terminal Bench 2.0 и 64,4% в Finance Agent v1.1 — эти цифры важны для сценариев с кодом, терминалом и финансовыми агентами [6][7].
Сравнивая результаты, нужно указывать benchmark, score и источник: вторичный обзор приводит 82,4% в SWE bench Verified, а AWS отдельно предупреждает о важности настройки промптов и тестовой обвязки [2][7].

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Opus 4.7: 87,6% в SWE-bench Verified и как это читать»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы25 апр. 2026

Вопрос исследования

¿Cuál es el benchmark de Claude Opus 4.7?

Studio Global AI25 апр. 202612 источники

Цитируемый ответ

Anthropic describe a Claude Opus 4.7 como una mejora sobre Opus 4.6 en ingeniería de software avanzada, tareas largas, seguimiento de instrucciones y visión ^[8].
En un benchmark interno de coding de 93 tareas, Opus 4.7 mejoró la “resolución” un 13% frente a Opus 4.6 ^[8].
En un benchmark interno de “research-agent”, Opus 4.7 empató el mejor score general con 0.715 y obtuvo 0.813 en el módulo de General Finance frente a 0.767 de Opus 4.6 ^[8].
En benchmarks públicos/semipúblicos citados por AWS: SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, Terminal-Bench 2.0 69.4% y Finance Agent v1.1 64.4% ^[7].
Ojo: hay fuentes secundarias que reportan cifras distintas —por ejemplo, 82.4% en SWE-bench Verified—, así que para una cifra “oficial” conviene priorizar Anthropic/AWS y especificar el harness o configuración usada ^[2]^[7].

Si me dices si lo quieres comparar contra GPT-5.5, Gemini o Claude Sonnet 4.6, te preparo una tabla breve.

Источники

[1] Models overview - Claude API Docsplatform.claude.com
Feature Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5 --- --- Description Our most capable generally available model for complex reasoning and agentic coding The best combination of speed and intelligence The fastest model with near-frontier intelligen...
[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[6] Claude Opus 4.7: Pricing, Benchmarks & Context Window - ALM Corpalmcorp.com
For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...
[7] Introducing Anthropic’s Claude Opus 4.7 model in Amazon Bedrock | AWS News Blogaws.amazon.com
According to Anthropic, Claude Opus 4.7 model provides improvements across the workflows that teams run in production such as agentic coding, knowledge work, visual understanding,long-running tasks. Opus 4.7 works better through ambiguity, is more thorough...
[8] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...