Короткий ответ: по открытым бенчмаркам нельзя честно сказать, что GPT-5.5 во всём лучше Claude Opus 4.7 — или наоборот. Картина сильно зависит от workload. GPT-5.5 заметнее в задачах с терминалом, browsing и частью агентных сценариев; Claude Opus 4.7 сильнее выглядит на SWE-Bench Pro, MCP Atlas и ряде reasoning/tooling-тестов по сводным таблицам [5][
6][
11].
Но к таблицам стоит относиться как к фильтру для шорт-листа, а не как к финальному вердикту. Многие оценки приходят из публикаций поставщиков или агрегаторов. LLM Stats отдельно помечает, что часть данных по GPT-5.5 может быть self-reported и не обязательно независимо проверена [8]. Для продакшена решающим всё равно будет ваш внутренний eval.
Быстрая карта бенчмарков
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Как читать результат |
|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% | Сильный плюс GPT-5.5 для workflow в командной строке. OpenAI описывает Terminal-Bench 2.0 как тест сложных command-line задач, где нужны planning, итерации и координация инструментов [ |
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7 ведёт в сложном тесте на исправление реальных GitHub-issue; OpenAI также публикует для GPT-5.5 результат 58,6% на этом тесте [ |
| GPQA Diamond | 93,6% | 94,2% | Claude чуть впереди, но разрыв всего 0,6 процентного пункта — этого мало, чтобы объявлять победителя для всех reasoning-задач [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 ведёт в таблицах Vellum и Mashable [ |
| GDPval | 84,9% | 80,3% | GPT-5.5 ведёт в сводке Vellum [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 лишь немного впереди; такой разрыв лучше перепроверять на собственных сценариях [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 ведёт в этом тесте на orchestration инструментов по таблице Vellum [ |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5 ведёт в таблице Vellum [ |
| FinanceAgent v1.1 | Нет полной пары чисел в предоставленных источниках | 64,4% в DataCamp | LLM Stats относит лидерство к Claude Opus 4.7, но без полной сопоставимой пары чисел здесь лучше быть осторожнее [ |
| Humanity’s Last Exam | Данные расходятся | Данные расходятся | Не лучший tie-breaker без повторного запуска в одинаковых условиях: LLM Stats, Mashable и o-mega дают разные сигналы [ |
Если смотреть на агрегированную картину LLM Stats, Claude Opus 4.7 ведёт в 6 из 10 бенчмарков, по которым оба поставщика дают результаты, а GPT-5.5 — в 4. Там же вывод формулируется так: сильные стороны Claude чаще лежат в reasoning-heavy и review-grade тестах, а GPT-5.5 — в долгом tool-use и shell-driven задачах [6]. Это полезная рамка, но она не снимает проблему спорных строк вроде Humanity’s Last Exam [
6][
9][
11].
Кодинг: Terminal-Bench и SWE-Bench измеряют разные навыки
Если ваш сценарий — агентный кодинг через терминал, GPT-5.5 выглядит более сильным кандидатом по текущим публичным данным. В Terminal-Bench 2.0 он набирает 82,7% против 69,4% у Claude Opus 4.7 [5][
11]. OpenAI объясняет, что этот тест проверяет сложные command-line workflow: модель должна планировать, запускать команды, анализировать результат, повторять попытки и координировать инструменты [
23].
Это важно для CLI-copilot, DevOps-ассистента или coding agent, который должен сам запускать тесты, читать ошибки, править файлы и повторять цикл. Для такого класса задач Terminal-Bench 2.0 полезнее, чем общий тест на абстрактное reasoning.
Но если задача ближе к исправлению реальных issues в репозитории, Claude Opus 4.7 получает преимущество. На SWE-Bench Pro он показывает 64,3% против 58,6% у GPT-5.5 [5][
11]. OpenAI описывает SWE-Bench Pro как оценку способности решать реальные GitHub-issue [
23]. Поэтому для bug fixing, изменений в больших repo и review-grade software tasks Claude Opus 4.7 стоит включать в первый раунд тестирования.
С SWE-Bench Verified картина менее чистая. MindStudio указывает для Claude Opus 4.7 результат 82,4%, тогда как APIyi и DataCamp приводят 87,6%; в предоставленных источниках нет стабильной пары GPT-5.5 vs Claude Opus 4.7 для одной и той же строки этого теста [1][
2][
3].
Агенты и workflow: у GPT-5.5 много сильных сигналов, но Claude не стоит списывать
В агентных сценариях GPT-5.5 часто выглядит убедительно. В таблице Vellum он ведёт на BrowseComp — 84,4% против 79,3%, на GDPval — 84,9% против 80,3%, и на OSWorld-Verified — 78,7% против 78,0% [5]. Mashable также приводит для BrowseComp ту же пару результатов: 84,4% у GPT-5.5 и 79,3% у Claude Opus 4.7 [
11]. LLM Stats добавляет, что GPT-5.5 ведёт в CyberGym, хотя в доступном фрагменте не показаны проценты [
6].
У Claude Opus 4.7 есть свои сильные зоны. В Vellum он опережает GPT-5.5 на MCP Atlas: 79,1% против 75,3% [5]. LLM Stats относит к Claude лидерство в FinanceAgent v1.1, а DataCamp указывает для Claude Opus 4.7 результат 64,4% на этом тесте [
3][
6]. Anthropic также описывает Claude Opus 4.7 как новую версию Opus с усилением в coding, agents, vision и многошаговых задачах [
28].
Практический вывод простой: если ваш workflow завязан на shell, browsing или автоматизацию в стиле работы с ОС, GPT-5.5 логично тестировать первым. Если важнее структурированная orchestration инструментов, MCP-сценарии или финансовые agent-workflow, Claude Opus 4.7 не стоит отсеивать по одной общей таблице.
Reasoning: GPQA почти вровень, HLE лучше не использовать как решающий тест
На GPQA Diamond Claude Opus 4.7 набирает 94,2%, GPT-5.5 — 93,6% [5][
11]. Это плюс в пользу Claude, но разрыв в 0,6 процентного пункта слишком мал, чтобы переносить его на любые научные, аналитические или экспертные задачи. Для реального выбора лучше прогнать обе модели на собственном наборе вопросов и кейсов.
С Humanity’s Last Exam ситуация ещё менее удобная. LLM Stats пишет, что Claude Opus 4.7 ведёт и в HLE без tools, и в HLE with tools [6]. Mashable, наоборот, приводит 40,6% у GPT-5.5 против 31,2% у Opus 4.7 в HLE без tools, но 54,7% у Claude против 52,2% у GPT-5.5 в версии with tools [
11]. o-mega добавляет ещё один набор чисел по HLE [
9]. Пока условия запуска не выровнены, HLE не стоит использовать как решающий аргумент.
Что выбрать: GPT-5.5 или Claude Opus 4.7
Начните с GPT-5.5, если главное — агент, который долго работает в терминале, запускает команды, чинит ошибки по логам, проходит test loop или автоматизирует многошаговые shell-сценарии. Terminal-Bench 2.0 здесь заметно склоняется в сторону GPT-5.5 [5][
11][
23]. GPT-5.5 также выглядит хорошим первым кандидатом для browsing/search-style workflow, GDPval, OSWorld-Verified и FrontierMath T1–3 по таблицам Vellum и Mashable [
5][
11].
Начните с Claude Opus 4.7, если задача похожа на SWE-Bench Pro: исправление сложных issue, работа с реальным repo, оценка качества изменений и архитектурные правки. В этом тесте Claude опережает GPT-5.5 [5][
11]. Claude также стоит держать в shortlist для GPQA-style scientific reasoning, MCP/tool orchestration и finance-agent задач — по GPQA Diamond, MCP Atlas, FinanceAgent v1.1 и сводке LLM Stats [
3][
5][
6][
11].
Самый безопасный подход — не выбирать модель по одному лидерборду. Разбейте свои сценарии на четыре корзины: кодинг внутри repo, terminal/agent automation, reasoning без tools и workflow с tools. Для каждой корзины запускайте одинаковые prompt, одинаковый доступ к инструментам, одинаковые sampling-настройки, одинаковый reasoning effort и одинаковые критерии оценки. Публичные бенчмарки помогают понять, с кого начать; внутренний eval показывает, кого действительно стоит пускать в продукт, особенно когда часть публичных оценок может быть self-reported или не подтверждена независимой проверкой [8].




