ОтчетыОпубликовано2 месяца назадLast edited в прошлом месяце18 источники

Битва титанов: кто лидирует на передовой ИИ в мае 2026 года?

Свежий Claude Opus 4.8 лидирует в агентном кодинге и интеллектуальной работе, но GPT 5.5 — король терминала и абстрактного мышления. Gemini 3.5 Flash — чемпион по скорости и работе с инструментами при цене в 3–5 раз ниже конкурентов.

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Research benchmarks for Claude Opus 4.8, Claude Opus 4.7, GPT-5.5, Gemini 3.5 Flash, Grok 4.3, DeepSeek V4AI-generated editorial hero image for Research benchmarks for Claude Opus 4.8, Claude Opus 4.7, GPT-5.5, Gemini 3.5 Flash, Grok 4.3, DeepSeek V4. Compare them as comprehensively.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: Research benchmarks for Claude Opus 4.8, Claude Opus 4.7, GPT-5.5, Gemini 3.5 Flash, Grok 4.3, DeepSeek V4. Compare them as comprehensively. Article summary: ### Which model leads what?. Topic tags: deepresearch, general web, user generated, documentation, education. Reference image context from search candidates: Reference image 1: visual subject "# Deep|DeepSeek V4 vs Claude vs GPT-5.4: A 38-Task Benchmark Across Coding, Reasoning, and Financial Research. * **Claude Opus 4.6 (Thinking) and Claude Opus 4.7 tie for #1 overall" source context "Deep|DeepSeek V4 vs Claude vs GPT-5.4: A 38-Task Benchmark ..." Reference image 2: visual subject "# April 2026 AI Model Releases: GPT-5.5, Claude Opus 4.7, DeepSeek V4 + 6 More. GPT-5.5, Claude Opus 4.7, DeepSeek V4, Gemma 4, Nemotron 3 — April 2026 nine model releases compared
openai.com

Мир больших языковых моделей в мае 2026 года напоминает гонку «Формулы-1»: каждая команда только что выпустила новый болид, и теперь мы пытаемся понять, кто быстрее на извилистой трассе, а кто экономичнее расходует топливо. Anthropic, OpenAI и Google DeepMind обновили свои флагманские линейки, а xAI и DeepSeek показали, что могут быть крайне интересными «темными лошадками». Чтобы не запутаться в цифрах, мы собрали для вас самую полную сравнительную таблицу из десятков бенчмарков, а также ключевые выводы.

Сравнительная таблица бенчмарков

Бенчмарк	Claude Opus 4.8	Claude Opus 4.7	GPT-5.5	Gemini 3.5 Flash	Grok 4.3	DeepSeek V4 Pro
SWE-Bench Pro (Агентное кодирование)	69,2%	64,3%	58,6%	~21,4%*	~19,4%*	~18,1%*
SWE-Bench Verified (Исправление багов)	~83% (оценка)	87,6%	85,0%	82,1%	81,0%	80,6%
Terminal-Bench 2.0/2.1 (Работа в терминале)	74,6%	66,1–69,4%	78,2–82,7%	76,2%	68,5%	65,0%
OSWorld-Verified (Управление компьютером)	83,4%	82,8%	78,7%	75,0%	72,1%	70,5%
GDPval-AA (Интеллектуальная работа / Agentic Elo)	1890	1753	1620–1769	1656	1500–1570	1550
Humanity's Last Exam (с инструментами)	57,9%	54,7%	—	—	—	—
Humanity's Last Exam (без инструментов)	49,8%	—	—	—	—	—
GPQA Diamond (Экспертные научные вопросы)	~94% (оценка)	94,2%	96,0%	92,4%	90,1–91,5%	95,1%
ARC-AGI-2 (Абстрактное визуальное мышление)	~80% (оценка)	80,2%	85,0%	75,8%	76,1%	74,0%
MCP Atlas (Надежность использования инструментов)	—	77,3%	79,1%	83,6%	74,2%	71,5%
AA Intelligence Index (v4.0)	~59–60 (оценка)	59	60	57	53	55
Finance Agent v2 (Финансовый анализ)	53,9%	51,5%	—	—	—	—
LiveCodeBench (Pass@1)	—	—	~91–92% (оценка)	—	—	93,5%
Codeforces ELO	—	~3050 (оценка)	3168	—	—	3206
FrontierMath Tier 1–3	—	43,8%	51,7%	—	—	—
MMLU-Pro	—	—	—	—	—	87,5%
AIME 2025 (Математика)	—	—	95,2%	—	—	—
BrowseComp (Веб-исследования)	—	79,3%	84,4%	—	—	—

* Показатели SWE-Bench Pro для Gemini 3.5 Flash, Grok 4.3 и DeepSeek V4 Pro взяты из одного независимого теста и могут отличаться от официальных данных компаний.

Цены и производительность

Параметр	Claude Opus 4.8	Claude Opus 4.7	GPT-5.5	Gemini 3.5 Flash	Grok 4.3	DeepSeek V4 Pro
Цена за вход (за 1 млн токенов)	$5,00	$15,00	$5,00	$1,50	$1,25–1,50	~$0,50–2,00 (оценка)
Цена за выход (за 1 млн токенов)	$25,00	~$75,00 (оценка)	$30,00	$9,00	~$6,00–8,00 (оценка)	~$2,00–8,00 (оценка)
Скорость вывода (токенов/сек)	~90–100 (оценка)	~67–78	~71	289	~159–207	~80–100 (оценка)
Контекстное окно	1 млн	200 тыс.	400 тыс.	1 млн	1 млн	1 млн
Дата выхода	28 мая 2026	16 апр. 2026	23 апр. 2026	19 мая 2026	30 апр. 2026	24 апр. 2026
Место в BenchLM (предварит.)	#2/119	—	#5/119	—	—	—

Кто в чем лидирует?

Claude Opus 4.8 — лучший выбор для сложной многозадачной работы: агентное кодирование (SWE-Bench Pro), интеллектуальные задачи (GDPval-AA) с рейтингом 1890, управление компьютером (OSWorld) с 83,4%, междисциплинарное мышление (Humanity's Last Exam) и финансовый анализ . Он занимает почетное второе место в предварительном глобальном рейтинге с суммарным баллом 93/100 .
GPT-5.5 доминирует там, где нужна логика и визуальная смекалка: работа в терминале (Terminal-Bench) с 78,2–82,7%, абстрактное визуальное мышление (ARC-AGI-2) с 85%, сложнейшая математика (FrontierMath, AIME 2025) и общий Индекс интеллекта AA (60 баллов) . На задачах с длинным контекстом он также совершил огромный скачок вперед.
Gemini 3.5 Flash — король эффективности: лучшая в мире работа с инструментами и API (MCP Atlas) — 83,6%, и при этом он в 4 раза быстрее выдает токены (~289 ток/с), чем любой из конкурентов, стоя при этом копейки . Это идеальный «рабочий» движок для агентов и конвейеров.
DeepSeek V4 Pro — ваш выбор для олимпиад по программированию: максимальный рейтинг Codeforces ELO 3206 и лидер LiveCodeBench с 93,5%, при этом почти не уступая флагманам на стандартном SWE-bench Verified (80,6%) — и всё это по гораздо более низкой цене .
Grok 4.3 — крепкий середняк: сбалансированные показатели (AA Index 53, GPQA 90,1%), высокая скорость (159–207 ток/с) и очень доступная цена. Проигрывает лидерам в сложных агентных и кодинговых задачах, но является отличным вариантом для широкого круга задач .
Claude Opus 4.7 — достойный предшественник, на момент выхода удерживающий лидерство в SWE-bench Verified (87,6%), но его преемник превзошел его по всем ключевым показателям .

Важные оговорки 🇷🇺

Источники бенчмарков разнятся. Данные собраны из отчетов разных компаний и независимых тестировщиков, где могли использоваться разные сценарии тестирования. Поэтому результаты одного и того же теста могут иногда отличаться на 3-5%.
SWE-Bench Pro и Verified — это разные тесты. Pro сложнее (многофайловые архитектурные изменения) — здесь лидирует Claude. Verified проще (исправление одиночных багов) — здесь результаты в лидирующей группе очень плотные.
DeepSeek, Grok и Gemini 3.5 Flash значительно дешевле в пересчете на токен, чем Claude Opus и GPT-5.5, что делает их гораздо более выгодным решением для высоконагруженных систем и задач, где критична скорость ответа.
Gemini 3.5 Flash — это модель «облегченного» (Flash) семейства, а не прямой аналог «топовых» моделей конкурентов. Несмотря на это, он на равных соревнуется с ними во многих агентных тестах, работая при этом быстрее и дешевле.

Что пока остается неясным

Не существует единого кросс-вендорного тестового набора, который проверил бы все шесть моделей в абсолютно идентичных условиях. Общая картина собрана из пересекающихся, но не идентичных наборов данных, как пазл.
У Grok 4.3 и DeepSeek V4 Pro меньше публичных и независимых данных по тестам на длинном контексте и сложном агентном поведении по сравнению с большой тройкой.
Claude Opus 4.8 вышел только 28 мая 2026 года. Большинство приведенных цифр — это заявления самой компании-разработчика, независимых подтверждений пока очень мало.

Самые надежные источники

Официальные страницы продуктов: Anthropic (claude/opus), OpenAI (introducing-gpt-5-5), Google DeepMind (gemini-3-5-flash model card) — это первичные данные.
Оценка NIST CAISI для DeepSeek V4 Pro — независимый государственный аудит .
Анализ Университета Дьюка для Gemini 3.5 Flash — освещение академическим учреждением .
Независимые агрегаторы: dev.to (прямое сравнение) , BenchLM.ai , Artificial Analysis — отлично подходят для сравнения, но вторичны по отношению к официальным данным.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Битва титанов: кто лидирует на передовой ИИ в мае 2026 года?»?

Свежий Claude Opus 4.8 лидирует в агентном кодинге и интеллектуальной работе, но GPT 5.5 — король терминала и абстрактного мышления.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 Pro — лучший для соревновательного программирования, почти не уступая флагманам при гораздо меньшей стоимости.

Источники

← Back to Trending