Если смотреть только на проценты в таблицах, Claude Opus 4.7 и GPT-5.5 легко превратить в спортивное противостояние. Но для практического выбора модели полезнее другой вопрос: не кто сильнее вообще, а какая модель лучше подходит под ваш тип задач.
По открытым бенчмаркам Claude Opus 4.7 выглядит сильнее в SWE-bench Pro, GPQA Diamond и MCP Atlas. GPT-5.5, в свою очередь, увереннее смотрится в Terminal-Bench 2.0, OSWorld-Verified, BrowseComp и FrontierMath [6][
14][
15][
29][
34].
Сравнивать их «в лоб» нужно осторожно. Artificial Analysis, например, сопоставляет GPT-5.5 в режиме xhigh с Claude Opus 4.7 в конфигурации Non-reasoning, High Effort, а LLM Stats прямо формулирует главный вывод так: бенчмарки выбирают не единого победителя, а рабочую нагрузку [3][
4].
Короткая карта бенчмарков
| Область | Бенчмарк | Claude Opus 4.7 | GPT-5.5 | Как читать результат |
|---|---|---|---|---|
| Исправление кода | SWE-bench Pro | 64,3% | 58,6% | В задачах, похожих на реальные GitHub issue, у Claude выше опубликованный результат [ |
| Терминальные задачи | Terminal-Bench 2.0 | 69,4% | 82,7% | В CLI-сценариях, работе с файлами и скриптами GPT-5.5 заметно впереди [ |
| Использование компьютера | OSWorld-Verified | 78,0% | 78,7% | Почти паритет, но публичное значение GPT-5.5 выше на 0,7 п. п. [ |
| Поиск и браузерные агенты | BrowseComp | 79,3% | 84,4% | В поисково-браузерных задачах GPT-5.5 впереди; для GPT-5.5 Pro указано 90,1% [ |
| MCP-инструменты | MCP Atlas | 79,1% | 75,3% | Не все tool-use бенчмарки за GPT-5.5: здесь выше Claude [ |
| Научные вопросы | GPQA Diamond | 94,2–94,3% | 93,6% | Разрыв небольшой, но по этим источникам Claude чуть впереди [ |
| Математика | FrontierMath T1-3 / T4 | 43,8% / 22,9% | 51,7% / 35,4% | В сложной математике GPT-5.5 выигрывает заметнее [ |
| Общие рассуждения | HLE, no tools | 31,2% или 46,9% | 40,6% или 41,4% | Источники расходятся, поэтому HLE не стоит делать решающим аргументом [ |
| Рассуждения с инструментами | HLE, with tools | 54,7% | 52,2% | В этом режиме Claude показан чуть выше [ |
Кодинг: Claude лучше в GitHub-issue, GPT-5.5 — в терминале
В кодинге особенно важно не смешивать разные типы задач. SWE-bench Pro оценивает способность модели решать задачи, близкие к реальным проблемам из GitHub. Здесь Claude Opus 4.7 получает 64,3%, а GPT-5.5 — 58,6%, то есть преимущество у Claude [6][
34]. Vellum также трактует этот разрыв как сигнал, что в исправлении реальных issue Anthropic сохраняет сильную позицию [
34].
Но стоит перейти от правки кода к выполнению команд, и картина меняется. Terminal-Bench 2.0 описывается как проверка реальных CLI-workflows: многошаговых задач с файловыми операциями, запуском скриптов и работой в терминале. В этом тесте GPT-5.5 набирает 82,7%, а Claude Opus 4.7 — 69,4% [6][
14][
23].
Практический вывод простой: если модель должна читать репозиторий, понимать архитектуру и предлагать качественные исправления, Claude Opus 4.7 стоит тестировать первым. Если же важнее автономно ходить по файловой системе, запускать команды, чинить ошибки по логам и доводить сценарий в терминале до конца, у GPT-5.5 есть сильный аргумент.
Качественные сравнения приходят к похожему выводу. Mindstudio пишет, что GPT-5.5 немного сильнее в задачах, где нужны точное использование инструментов и навигация по файлам, тогда как Claude Opus 4.7 лучше проявляет себя в архитектурных рассуждениях по большим кодовым базам [5].
Отдельно стоит не переоценивать SWE-bench Verified. APIYI и LLM Stats приводят для Claude Opus 4.7 результат 87,6%, но по предоставленным данным нельзя уверенно зафиксировать сопоставимый показатель GPT-5.5 в тех же условиях [8][
30]. Даже одинаковое название бенчмарка не гарантирует одинаковый режим модели, harness, число повторов и правила перезапуска [
3][
23].
Агенты и инструменты: GPT-5.5 силён шире, но не везде
В задачах компьютерного управления OpenAI приводит для OSWorld-Verified почти равные значения: GPT-5.5 — 78,7%, Claude Opus 4.7 — 78,0% [15]. Формально GPT-5.5 впереди, но разница очень небольшая.
В BrowseComp разрыв заметнее. По тем же данным OpenAI, GPT-5.5 набирает 84,4%, GPT-5.5 Pro — 90,1%, а Claude Opus 4.7 — 79,3% [15]. Если продукт строится вокруг поиска, браузинга, сбора информации и многошаговой проверки фактов в интернете, GPT-5.5 выглядит более очевидным первым кандидатом.
Однако обобщать это до фразы «GPT-5.5 лучше во всех tool-use задачах» нельзя. В MCP Atlas результат обратный: Claude Opus 4.7 — 79,1%, GPT-5.5 — 75,3% [15]. Поэтому агентные сценарии лучше разносить по категориям: браузерный поиск, GUI-управление компьютером, вызовы MCP-инструментов и терминальная автоматизация. Одна сводная оценка легко скроет именно тот провал, который будет критичен в вашем продукте.
Рассуждения: GPQA за Claude, FrontierMath за GPT-5.5
В научно-экспертных вопросах GPQA Diamond Claude Opus 4.7 показан на уровне 94,2–94,3%, а GPT-5.5 — 93,6% [14][
29]. Это небольшой разрыв, но по имеющимся источникам преимущество остаётся за Claude.
В математике вывод противоположный. На FrontierMath T1-3 GPT-5.5 получает 51,7%, Claude Opus 4.7 — 43,8%. На более сложном FrontierMath T4 GPT-5.5 также выше: 35,4% против 22,9% [14]. Если основной сценарий — сложные математические задачи, формальные выкладки, проверка решений и вычислительная логика, GPT-5.5 разумнее поставить первым в очередь на тестирование.
Почему HLE пока плохой тай-брейкер
Humanity’s Last Exam, или HLE, в этом сравнении лучше рассматривать с особой осторожностью. Mashable приводит no-tools результат, где GPT-5.5 набирает 40,6%, а Claude Opus 4.7 — 31,2%, то есть впереди GPT-5.5 [6]. Но o-mega и RDWorld дают другую картину для no-tools: GPT-5.5 — 41,4%, Claude Opus 4.7 — 46,9%, и здесь уже впереди Claude [
14][
23].
В режиме with tools Mashable и RDWorld указывают GPT-5.5 на уровне 52,2%, а Claude Opus 4.7 — 54,7%, то есть Claude немного выше [6][
23]. Но из-за расхождений в no-tools результатах делать HLE главным доказательством общей «разумности» одной из моделей преждевременно.
Контекст, цена и лидерборды: полезно, но не решает выбор
С контекстным окном тоже есть нюансы в формулировках источников. Artificial Analysis указывает для GPT-5.5 922 тыс. токенов, а для Claude Opus 4.7 — 1 000 тыс. токенов [3]. LLM Stats, напротив, описывает обе модели как выпущенные с контекстом 1M токенов и одинаковой входной ценой [
4]. В прикладном выборе их стоит считать моделями сверхдлинного контекста, но реальные лимиты, тарифы и ограничения нужно проверять в конкретном API, тарифном уровне, режиме рассуждения и конфигурации инструментов.
Общие лидерборды тоже полезны, но не заменяют тестирование на собственных задачах. BenchLM ставит Claude Opus 4.7 на 2-е место из 110 моделей в provisional leaderboard и на 2-е место из 14 моделей в verified leaderboard [1]. GPT-5.5 у BenchLM занимает 5-е место из 112 моделей в provisional leaderboard и 2-е место из 16 моделей в verified leaderboard [
17]. Это достаточно, чтобы считать обе модели верхним эшелоном, но недостаточно, чтобы выбрать модель для продакшена без проверки отказов, задержек, стоимости и стабильности tool calling.
Какую модель тестировать первой
Claude Opus 4.7 стоит поставить первым кандидатом, если:
- у вас много задач, похожих на SWE-bench Pro: исправление багов, работа с issue, изменение кода в существующем репозитории [
6][
34];
- важны понимание архитектуры большой кодовой базы, рефакторинг и качество code review [
5];
- ключевой сценарий похож на GPQA Diamond: сложные научные или экспертные вопросы [
14][
29];
- вам особенно важны сценарии, близкие к MCP Atlas, где Claude показан выше [
15].
GPT-5.5 логичнее тестировать первым, если:
- много терминальной автоматизации, CLI-команд, файловых операций и запуска скриптов [
6][
14][
23];
- важны задачи компьютерного управления в духе OSWorld-Verified [
15];
- продукт опирается на поиск, браузинг и агентный сбор информации, похожий на BrowseComp [
15];
- приоритет — сложная математика и задачи семейства FrontierMath [
14].
Итог
Claude Opus 4.7 выглядит особенно сильным выбором для SWE-bench Pro, GPQA Diamond и MCP Atlas [6][
14][
15][
29][
34]. GPT-5.5 сильнее проявляет себя в Terminal-Bench 2.0, OSWorld-Verified, BrowseComp и FrontierMath [
6][
14][
15][
23].
Так что лучший вопрос звучит не «Claude или GPT?», а «что именно должна делать модель?». Для сложной правки кода, архитектурных задач и научных вопросов сначала стоит проверить Claude Opus 4.7. Для терминальной автоматизации, браузерных агентов, компьютерного управления и математических задач — GPT-5.5. А финальное решение лучше принимать на собственном наборе задач с одинаковыми промптами, инструментами, бюджетом и правилами повторных запусков.




