| ~18,1%* |
| SWE-Bench Verified (Исправление багов) | ~83% (оценка) | 87,6% | 85,0% | 82,1% | 81,0% | 80,6% |
| Terminal-Bench 2.0/2.1 (Работа в терминале) | 74,6% | 66,1–69,4% | 78,2–82,7% | 76,2% | 68,5% | 65,0% |
| OSWorld-Verified (Управление компьютером) | 83,4% | 82,8% | 78,7% | 75,0% | 72,1% | 70,5% |
| GDPval-AA (Интеллектуальная работа / Agentic Elo) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| Humanity's Last Exam (с инструментами) | 57,9% | 54,7% | — | — | — | — |
| Humanity's Last Exam (без инструментов) | 49,8% | — | — | — | — | — |
| GPQA Diamond (Экспертные научные вопросы) | ~94% (оценка) | 94,2% | 96,0% | 92,4% | 90,1–91,5% | 95,1% |
| ARC-AGI-2 (Абстрактное визуальное мышление) | ~80% (оценка) | 80,2% | 85,0% | 75,8% | 76,1% | 74,0% |
| MCP Atlas (Надежность использования инструментов) | — | 77,3% | 79,1% | 83,6% | 74,2% | 71,5% |
| AA Intelligence Index (v4.0) | ~59–60 (оценка) | 59 | 60 | 57 | 53 | 55 |
| Finance Agent v2 (Финансовый анализ) | 53,9% | 51,5% | — | — | — | — |
| LiveCodeBench (Pass@1) | — | — | ~91–92% (оценка) | — | — | 93,5% |
| Codeforces ELO | — | ~3050 (оценка) | 3168 | — | — | 3206 |
| FrontierMath Tier 1–3 | — | 43,8% | 51,7% | — | — | — |
| MMLU-Pro | — | — | — | — | — | 87,5% |
| AIME 2025 (Математика) | — | — | 95,2% | — | — | — |
| BrowseComp (Веб-исследования) | — | 79,3% | 84,4% | — | — | — |
* Показатели SWE-Bench Pro для Gemini 3.5 Flash, Grok 4.3 и DeepSeek V4 Pro взяты из одного независимого теста и могут отличаться от официальных данных компаний.
Claude Opus 4.8 — лучший выбор для сложной многозадачной работы: агентное кодирование (SWE-Bench Pro), интеллектуальные задачи (GDPval-AA) с рейтингом 1890, управление компьютером (OSWorld) с 83,4%, междисциплинарное мышление (Humanity's Last Exam) и финансовый анализ . Он занимает почетное второе место в предварительном глобальном рейтинге с суммарным баллом 93/100
.
GPT-5.5 доминирует там, где нужна логика и визуальная смекалка: работа в терминале (Terminal-Bench) с 78,2–82,7%, абстрактное визуальное мышление (ARC-AGI-2) с 85%, сложнейшая математика (FrontierMath, AIME 2025) и общий Индекс интеллекта AA (60 баллов) . На задачах с длинным контекстом он также совершил огромный скачок вперед.
Gemini 3.5 Flash — король эффективности: лучшая в мире работа с инструментами и API (MCP Atlas) — 83,6%, и при этом он в 4 раза быстрее выдает токены (~289 ток/с), чем любой из конкурентов, стоя при этом копейки . Это идеальный «рабочий» движок для агентов и конвейеров.
DeepSeek V4 Pro — ваш выбор для олимпиад по программированию: максимальный рейтинг Codeforces ELO 3206 и лидер LiveCodeBench с 93,5%, при этом почти не уступая флагманам на стандартном SWE-bench Verified (80,6%) — и всё это по гораздо более низкой цене .
Grok 4.3 — крепкий середняк: сбалансированные показатели (AA Index 53, GPQA 90,1%), высокая скорость (159–207 ток/с) и очень доступная цена. Проигрывает лидерам в сложных агентных и кодинговых задачах, но является отличным вариантом для широкого круга задач .
Claude Opus 4.7 — достойный предшественник, на момент выхода удерживающий лидерство в SWE-bench Verified (87,6%), но его преемник превзошел его по всем ключевым показателям .
Comments
0 comments