Если сравнивать GPT-5.5 и Claude Opus 4.7 только по одной строке в лидерборде, легко получить неправильный ответ. Практический вывод другой: эти модели выигрывают в разных типах задач. LLM Stats так и описывает картину — бенчмарки выбирают не универсального победителя, а рабочую нагрузку [2].
По доступным данным GPT-5.5 сильнее выглядит там, где модель должна уверенно выполнять пошаговую работу в терминале, решать математически тяжёлые задачи и вести BrowseComp-style research. Claude Opus 4.7, напротив, чаще выглядит лучшим стартовым кандидатом для сложной инженерной разработки и orchestration внешних инструментов через MCP/API [21][
27][
28][
32].
Короткая таблица бенчмарков
| Бенчмарк / область | GPT-5.5 | Claude Opus 4.7 | Как читать результат |
|---|---|---|---|
| SWE-Bench Verified | 88,7% | 87,6% | Почти паритет; отрыв GPT-5.5 в 1,1 п. п. сам по себе не решает выбор [ |
| SWE-Bench Pro | 58,6% | 64,3% | На более сложных software-engineering задачах Claude заметно впереди [ |
| Terminal-Bench 2.0 | 82,7% | 69,4% reported | Для терминального исполнения GPT-5.5 выглядит сильнее, но публичная цифра Opus в источниках подана не полностью единообразно [ |
| MCP Atlas | 75,3% | 77,3–79,1% | В tool-calling и orchestration Claude немного впереди [ |
| FrontierMath Tier 1–3 | 51,7% | 43,8% | В математическом reasoning преимущество у GPT-5.5 [ |
| FrontierMath Tier 4 | 35,4% | 22,9% | На более трудном математическом уровне отрыв GPT-5.5 сохраняется [ |
| GPQA Diamond | 93,6% | 94,2% | Практически ничья; Claude чуть выше [ |
| Humanity's Last Exam, без tools | 41,4% | 46,9% | В широких экзаменационных задачах Claude впереди [ |
| Humanity's Last Exam, с tools | 52,2% | 54,7% | С инструментами у Claude тоже небольшой плюс [ |
| BrowseComp | 84,4% | 79,3% | В browsing-heavy research GPT-5.5 впереди [ |
Две строки лучше читать особенно осторожно. По Terminal-Bench 2.0 LLM Stats и другие сводки дают для Opus 4.7 результат 69,4%, тогда как одно сравнение показывает 82,7% для GPT-5.5, но не приводит публичное число для Opus [1][
18][
27]. По MCP Atlas публичный снимок BenchLM показывает 77,3% у Claude Opus 4.7 и 75,3% у GPT-5.5, а другие отчёты цитируют 79,1% против 75,3% [
21][
27][
32]. Направление при этом остаётся стабильным: GPT-5.5 лучше смотрится в terminal-style execution, Claude Opus 4.7 — в orchestration инструментов.
Кодинг: смотрите не только на SWE-Bench Verified
SWE-bench проверяет, насколько модель умеет исправлять реальные GitHub issues, а вариант Pro считается более сложным [17]. На SWE-Bench Verified разница почти символическая: GPT-5.5 набирает 88,7%, Claude Opus 4.7 — 87,6% [
1][
18]. Для практического выбора это скорее ничья, чем доказательство превосходства одной модели.
Более полезный сигнал даёт SWE-Bench Pro. Здесь Claude Opus 4.7 набирает 64,3% против 58,6% у GPT-5.5 — отрыв 5,7 п. п. [32]. Сам набор задач тоже ближе к тяжёлой разработке: в одном обзоре SWE-Bench Verified описан как 500 задач из 12 Python-репозиториев, а Pro — как 1 865 задач из 41 репозитория на Python, Go, TypeScript и JavaScript; среднее число изменяемых файлов растёт примерно с 1 до 4,1 [
22].
Отсюда простой вывод: если вы строите coding agent для multi-file bug fixing, ремонта pull request, рефакторинга или работы с большим production-кодом, Claude Opus 4.7 стоит тестировать первым. MindStudio также отмечает, что Opus 4.7 сильнее в задачах, где нужно широкое архитектурное понимание больших кодовых баз [3].
Агенты и tools: терминал — к GPT-5.5, orchestration — к Claude
Если ваш агент живёт в командной строке, создаёт файлы, запускает команды, проверяет ошибки и двигается шаг за шагом, у GPT-5.5 сильная заявка. В Terminal-Bench 2.0 для GPT-5.5 указаны 82,7%, для Claude Opus 4.7 — 69,4% [18][
27]. Но из-за неполной согласованности публичных сравнений это лучше воспринимать как направленный сигнал, а не как окончательную истину лидерборда [
1].
С orchestration внешних инструментов картина другая. MCP Atlas — это бенчмарк tool-calling поверх интеграций Model Context Protocol и внешних инструментов [21]. Публичный снимок BenchLM показывает 77,3% у Claude Opus 4.7 и 75,3% у GPT-5.5 [
21]. В других отчётах та же линия сравнения выглядит как 79,1% против 75,3% [
27][
32]. Если агенту нужно надёжно вызывать несколько API, сервисов и инструментов в правильной последовательности, Claude Opus 4.7 выглядит более сильной отправной точкой.
Reasoning и research: математика — не то же самое, что широкий экзамен
Объединять все reasoning-бенчмарки в одну корзину опасно. В таблице OpenAI для GPT-5.5 модель набирает 51,7% на FrontierMath Tier 1–3 против 43,8% у Claude Opus 4.7; на FrontierMath Tier 4 — 35,4% против 22,9% [28]. Для math-heavy reasoning преимущество GPT-5.5 выглядит явным.
Но GPQA Diamond и Humanity's Last Exam дают другой сигнал. На GPQA Diamond модели практически равны: 93,6% у GPT-5.5 и 94,2% у Claude Opus 4.7 [28]. На Humanity's Last Exam Claude, наоборот, впереди: 46,9% против 41,4% без инструментов и 54,7% против 52,2% с инструментами [
28].
Для web research полезнее смотреть на BrowseComp. Здесь у GPT-5.5 указаны 84,4%, у Claude Opus 4.7 — 79,3% [5][
27]. Поэтому для browsing-heavy анализа и автоматизированного поиска по вебу GPT-5.5 выглядит более логичным первым тестом.
Какую модель выбрать
Выбирайте GPT-5.5, если
- ваш сценарий похож на terminal execution: shell automation, CLI-агенты, пошаговая работа с файлами и командами; в Terminal-Bench 2.0 GPT-5.5 заметно впереди [
18][
27];
- нагрузка математическая или близкая к FrontierMath: GPT-5.5 лидирует и на Tier 1–3, и на Tier 4 [
28];
- вам нужен BrowseComp-style web research или browsing-heavy analysis; GPT-5.5 набирает 84,4% против 79,3% у Claude Opus 4.7 [
5][
27].
Выбирайте Claude Opus 4.7, если
- основная задача — сложные изменения в кодовой базе, multi-file bug fixing или сценарии уровня SWE-Bench Pro; на этом бенчмарке Claude впереди 64,3% против 58,6% [
32];
- вы строите агентов с MCP/API/tool orchestration; в снимках MCP Atlas Claude Opus 4.7 опережает GPT-5.5 [
21][
27][
32];
- качество зависит от архитектурного понимания больших репозиториев; MindStudio описывает Opus 4.7 как более сильный вариант для broad architectural reasoning across large codebases [
3].
Почему нельзя слепо верить цифрам
Публичные бенчмарки — это не production-истина. Anthropic в релизных заметках Claude Opus 4.7 отдельно упоминает изменения harness, внутренние реализации и обновления методик, а также предупреждает, что часть результатов нельзя напрямую сравнивать с публичными leaderboard scores [19]. По GPT-5.5 builder-focused обзор также отмечает, что часть benchmark scores является OpenAI-reported и пока не имеет независимой репликации [
31].
Для внедрения лучше провести короткий internal eval: взять ваши свежие тикеты, репозитории, tool chain, промпты и критерии pass/fail, а затем прогнать обе модели в одинаковых условиях. Лидерборды дают направление, но финальный выбор зависит от конкретной нагрузки, допустимой задержки, набора инструментов и цены ошибки.
Итог
Если нужен стартовый вариант для general automation, terminal execution, математического reasoning и BrowseComp-style research, GPT-5.5 выглядит сильнее [27][
28]. Если главный результат — сложная разработка, production coding agents или orchestration нескольких инструментов, Claude Opus 4.7 выглядит более убедительным кандидатом [
21][
32]. Самый безопасный вывод такой: GPT-5.5 сильнее в broad execution и математике, Claude Opus 4.7 — в hard software-engineering и tool-agent workflows.




