Сравнивать AI-модели в 2026 году стало сложнее, чем просто смотреть на первое место в очередной таблице. Один и тот же ярлык вроде “SWE-bench” может означать разные наборы задач, разные правила запуска и разные режимы рассуждения модели. Если сложить Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6 в один общий рейтинг без проверки версий и методики, вывод легко получится красивым, но неверным.
Самая надежная часть сравнения в доступных источниках — это Claude Opus 4.7 против GPT-5.5: обе модели встречаются в одних и тех же таблицах OpenAI и Vellum [5][
2]. По DeepSeek V4 и Kimi K2.6 прямых чисел в этих источниках нет: ближайшие данные относятся к DeepSeek V3.2, KimiK2.5 и Kimi K2 Thinking [
1][
13][
6].
Короткий вывод
- GPT-5.5 выглядит сильнее в задачах терминала/CLI, офисной и профессиональной работы, браузерного поиска и части математических оценок в доступных данных [
5][
2].
- Claude Opus 4.7 выглядит сильнее в SWE-Bench Pro Public, MCP Atlas/tool orchestration и FinanceAgent v1.1 в тех же сопоставимых таблицах [
5][
2].
- DeepSeek V4 и Kimi K2.6 пока нельзя честно ранжировать против Claude Opus 4.7 и GPT-5.5: опубликованные в этих источниках цифры относятся к другим версиям моделей [
1][
13][
6].
Где цифры действительно сопоставимы
Ниже — только те строки, где Claude Opus 4.7 и GPT-5.5 сравниваются на одном и том же бенчмарке. GPT-5.5 Pro указан отдельно только там, где источник сам выделяет эту версию [2].
| Практический сценарий | Бенчмарк | Результат | Как читать |
|---|---|---|---|
| Исправление кода и задач в репозиториях | SWE-Bench Pro Public | Claude Opus 4.7 — 64,3% против GPT-5.5 — 58,6% [ | На этом бенчмарке впереди Claude. |
| Терминальные и CLI-агенты | Terminal-Bench 2.0 | GPT-5.5 — 82,7% против Claude Opus 4.7 — 69,4% [ | Самое явное преимущество GPT-5.5. |
| Профессиональные и офисные задачи | GDPval; OfficeQA Pro | GPT-5.5 — 84,9% против Claude — 80,3% в GDPval; GPT-5.5 — 54,1% против Claude — 43,6% в OfficeQA Pro [ | GPT-5.5 выше на обеих метриках. |
| Финансовый агент | FinanceAgent v1.1 | Claude — 64,4% против GPT-5.5 — 60,0% [ | Claude лучше именно на этой finance-agent оценке. |
| Работа с компьютером, браузером и поиском | OSWorld-Verified; BrowseComp | GPT-5.5 — 78,7% против Claude — 78,0% в OSWorld; GPT-5.5 — 84,4% и GPT-5.5 Pro — 90,1% против Claude — 79,3% в BrowseComp [ | В OSWorld почти паритет; в BrowseComp выше GPT-5.5. |
| Оркестрация инструментов | MCP Atlas | Claude — 79,1% против GPT-5.5 — 75,3% [ | Claude сильнее в сценариях с большим количеством вызовов инструментов. |
| Научное и математическое рассуждение | GPQA Diamond; FrontierMath T1–3 | Claude — 94,2% против GPT-5.5 — 93,6% в GPQA; GPT-5.5 — 51,7% и GPT-5.5 Pro — 52,4% против Claude — 43,8% в FrontierMath [ | GPQA почти не различает модели; в FrontierMath выше GPT-5.5. |
Как не попасть в ловушку бенчмарков
1. SWE-Bench Pro и SWE-bench Verified — не одно и то же
OpenAI в прямом сравнении GPT-5.5 и Claude Opus 4.7 использует SWE-Bench Pro Public [5]. Это нельзя автоматически смешивать с SWE-bench Verified. BenchLM описывает SWE-bench Verified как проверенное людьми подмножество SWE-bench, где модели решают реальные GitHub-issue из популярных Python-репозиториев вроде Django, Flask и scikit-learn [
21].
Поэтому результат Claude 64,3% в SWE-Bench Pro Public нельзя напрямую сравнивать с оценками Claude в SWE-bench Verified из других таблиц [5][
21]. Нужно совпадение не только названия модели, но и бенчмарка, harness, даты запуска и конфигурации.
2. GPQA Diamond уже плохо разделяет frontier-модели
Vellum ставит Claude Opus 4.7 на 94,2%, а GPT-5.5 — на 93,6% в GPQA Diamond [2]. The Next Web также приводит близкие значения для frontier-моделей: Claude Opus 4.7 — 94,2%, GPT-5.4 Pro — 94,4%, Gemini 3.1 Pro — 94,3%, и отмечает, что такие различия находятся в пределах шума [
17].
Вывод практичный: GPQA полезен как общий сигнал уровня рассуждения, но выбирать production-модель только по нему — слабая стратегия.
3. Сторонние лидерборды могут расходиться — и это нормально
Даже по SWE-bench Verified оценки Claude Opus 4.7 отличаются в разных источниках. BenchLM указывает Claude Opus 4.7 Adaptive с результатом 87,6% по состоянию на 24 апреля 2026 года [21]. LLM Stats тоже приводит 87,6% [
18]. При этом LM Council показывает Claude Opus 4.7 max на уровне 83,5% ±1,7 [
10], а MindStudio называет 82,4% [
14].
Это не обязательно означает, что кто-то “ошибся”. Разница часто появляется из-за режима модели, набора разрешенных попыток, harness, даты тестирования и того, как leaderboard учитывает reasoning mode или retry. Для инженерной команды публичные цифры лучше использовать как фильтр для shortlist, а не как замену собственных тестов на своем репозитории и workflow.
Claude Opus 4.7: сильный кандидат для repo repair и multi-tool сценариев
Самый сильный сигнал по Claude Opus 4.7 — задачи исправления кода и агентные сценарии с активным использованием инструментов. В таблице OpenAI Claude опережает GPT-5.5 на SWE-Bench Pro Public: 64,3% против 58,6%, а также в FinanceAgent v1.1: 64,4% против 60,0% [5]. Vellum дополнительно показывает преимущество Claude в MCP Atlas: 79,1% против 75,3% у GPT-5.5 [
2].
Anthropic в launch note Claude Opus 4.7 также приводит партнерские оценки, релевантные для agentic workflows. По словам Anthropic, Hebbia увидела двузначный рост точности tool calls и планирования в orchestrator agents, а Rakuten-SWE-Bench сообщил, что Opus 4.7 решает в три раза больше production-задач, чем Opus 4.6, с двузначным ростом Code Quality и Test Quality [19]. Это полезный продуктовый сигнал, но его все равно нужно отделять от независимой проверки на ваших данных.
Если приоритет — автономное исправление задач в репозитории, MCP/tool orchestration или длинные workflow с несколькими инструментами, Claude Opus 4.7 логично включить в тест первым. Но финальное решение должно зависеть от ваших test suite, модели прав доступа и реальных схем tool calls.
GPT-5.5: заметно сильнее в терминале, браузере, офисных задачах и части математики
У GPT-5.5 самое яркое преимущество — Terminal-Bench 2.0. OpenAI сообщает 82,7% для GPT-5.5 против 69,4% у Claude Opus 4.7 и 68,5% у Gemini 3.1 Pro [5]. В той же таблице GPT-5.5 выше Claude по GDPval wins/ties — 84,9% против 80,3%, а также по OfficeQA Pro — 54,1% против 43,6% [
5].
Vellum добавляет контекст по computer-use, поиску и reasoning. GPT-5.5 немного выше Claude в OSWorld-Verified — 78,7% против 78,0%; заметно выше в BrowseComp — 84,4% против 79,3%; и выше в FrontierMath T1–3 — 51,7% против 43,8% [2]. Для BrowseComp Vellum отдельно указывает GPT-5.5 Pro с результатом 90,1% [
2].
С кодингом картина смешанная. GPT-5.5 очень силен в терминальных workflow, но уступает Claude Opus 4.7 на SWE-Bench Pro Public в таблице OpenAI [5]. В System Card OpenAI также описывает CoT-Control для GPT-5.5 — набор из более чем 13 000 задач, собранных на базе GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified [
26]. Однако этот источник не дает прямого сравнения GPT-5.5 с DeepSeek V4 или Kimi K2.6 [
26].
DeepSeek V4 и Kimi K2.6: прямых доказательств пока нет
По DeepSeek V4 в доступных источниках нет прямого benchmark-результата. Ближайшая цифра относится к DeepSeek V3.2: MangoMind в рекомендациях для coding за апрель 2026 года ставит DeepSeek V3.2 на 89,2% SWE-bench, ниже Claude Opus 4.6 с 93,2% и GPT-5.4 Pro с 91,1% [1]. Но результат DeepSeek V3.2 нельзя использовать как доказательство уровня DeepSeek V4.
По Kimi K2.6 ситуация такая же. Stanford HAI упоминает KimiK2.5 в группе моделей с результатами 70–76% на SWE-bench Verified по состоянию на февраль 2026 года [13]. Siliconflow приводит Kimi K2 Thinking с GPQA 84,5 и SWE Bench 71,3 [
6]. Это полезный контекст по экосистеме Kimi, но не прямые данные по Kimi K2.6.
Что тестировать команде продукта
| Если главная задача — | С чего начать тесты | Основание | Важная оговорка |
|---|---|---|---|
| Терминальный или CLI coding agent | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 — 82,7% против Claude — 69,4% [ | Проверьте в своем shell-окружении, permission model и CI/CD. |
| Автономное исправление задач в репозитории | Claude Opus 4.7, затем GPT-5.5 как контроль | SWE-Bench Pro Public: Claude — 64,3% против GPT-5.5 — 58,6% [ | Не смешивайте с SWE-bench Verified без совпадения методики [ |
| MCP или многошаговая оркестрация инструментов | Claude Opus 4.7 | MCP Atlas: Claude — 79,1% против GPT-5.5 — 75,3% [ | Валидируйте на своих tool schema, retry logic и access policy. |
| Браузерный или поисковый агент | GPT-5.5 или GPT-5.5 Pro | BrowseComp: GPT-5.5 — 84,4%, GPT-5.5 Pro — 90,1%, Claude — 79,3% [ | BrowseComp не покрывает все возможные внутренние исследовательские задачи. |
| Финансовые и профессиональные workflow | Split test Claude и GPT-5.5 | Claude выше в FinanceAgent v1.1, GPT-5.5 выше в GDPval и OfficeQA Pro [ | MindStudio подчеркивает: разрыв между benchmark-скорингом и рабочим finance-инструментом часто лежит в end-to-end инфраструктуре, а не только в “интеллекте” модели [ |
| Общее научное рассуждение | Не выбирать только по GPQA | GPQA Diamond у Claude и GPT-5.5 почти равен в таблице Vellum [ | Нужна доменная оценка под ваши реальные задачи, особенно если они не похожи на вопросы бенчмарка. |
Итог
Если опираться только на прямые head-to-head данные, GPT-5.5 — более сильный первый кандидат для терминальных/CLI-агентов, браузерного поиска, офисных задач и некоторых математических benchmark-сценариев [5][
2]. Claude Opus 4.7 — более сильный первый кандидат для SWE-Bench Pro Public, MCP/tool orchestration и FinanceAgent v1.1 [
5][
2].
DeepSeek V4 и Kimi K2.6 пока нельзя честно поставить выше или ниже этих моделей по доступным источникам. Опубликованные цифры относятся к другим версиям — DeepSeek V3.2, KimiK2.5 и Kimi K2 Thinking, поэтому утверждения, что DeepSeek V4 или Kimi K2.6 уже превосходят Claude Opus 4.7 или GPT-5.5, здесь не подтверждаются прямыми benchmark-данными [1][
13][
6].




