Вопрос «какая модель сильнее — GPT-5.5 или Claude Opus 4.7?» звучит удобно, но слишком упрощает картину. По открытым сравнительным сводкам Claude Opus 4.7 заметнее в SWE-Bench Pro — классе задач, связанных с исправлением реального ПО. GPT-5.5 чаще впереди там, где важны терминал, браузер, операции с ОС и часть профессиональных задач: Terminal-Bench 2.0, GDPval, BrowseComp, OSWorld-Verified и FrontierMath T1–3. [14]
Но эти цифры не стоит читать как единый официальный протокол, совместно опубликованный OpenAI и Anthropic. Прямые сопоставления в основном берутся из сторонних сводок Vellum, Kingy AI и Mashable, поэтому они хороши для шорт-листа, но не должны заменять внутренние тесты на ваших задачах. [14][
6][
19]
Сначала разделим позиционирование и бенчмарки
OpenAI в документации API описывает GPT-5.5 как новейшую frontier-модель для самой сложной профессиональной работы и указывает, что она поддерживает настройку reasoning.effort. [23] Anthropic в официальном анонсе Claude Opus 4.7 делает акцент на вызове инструментов, планировании и программной инженерии: в приведённом кейсе Hebbia говорится о двузначном росте точности tool calls и planning, а на Rakuten-SWE-Bench модель решает в 3 раза больше production-задач, чем Opus 4.6. [
36]
Это помогает понять, как сами компании позиционируют модели. Но для прямого сравнения GPT-5.5 и Claude Opus 4.7 по пунктам в этой статье используются прежде всего сторонние таблицы и обзоры. [14][
6][
19]
Быстрый срез: кто где впереди
Основные значения ниже взяты из сводки Vellum по GPT-5.5; для GPQA Diamond тот же порядок также виден в лидерборде Vellum. [14][
12]
| Бенчмарк | GPT-5.5 | Claude Opus 4.7 | Выше результат |
|---|---|---|---|
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7, +5,7 п. п. [ |
| Terminal-Bench 2.0 | 82,7% | 69,4% | GPT-5.5, +13,3 п. п. [ |
| GDPval | 84,9% | 80,3% | GPT-5.5, +4,6 п. п. [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5, +0,7 п. п. [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5, +5,1 п. п. [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7, +3,8 п. п. [ |
| GPQA Diamond | 93,6% | 94,2% | Claude Opus 4.7, +0,6 п. п. [ |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5, +7,9 п. п. [ |
Исправление кода: Claude Opus 4.7 стоит поставить первым
Самый ясный пункт в пользу Claude — SWE-Bench Pro: 64,3% у Claude Opus 4.7 против 58,6% у GPT-5.5, то есть преимущество 5,7 процентного пункта. [14] Практический вывод такой: если ваш главный сценарий — исправлять реальные issue, генерировать патчи, понимать зависимости между файлами или разбирать сложные pull request, Claude Opus 4.7 должен попасть в первую волну тестирования.
Есть и близкий ориентир — SWE-bench Verified. BenchLM описывает его как вручную проверенную подвыборку SWE-bench для оценки способности моделей решать реальные GitHub issue в популярных open-source Python-репозиториях вроде Django, Flask и scikit-learn; для Claude Opus 4.7 Adaptive там указано 87,6%. [9] Но в этом источнике нет сопоставимого значения GPT-5.5 по той же методике, поэтому одного этого пункта недостаточно, чтобы доказать прямое превосходство Claude на SWE-bench Verified. Более осторожный вывод: Claude Opus 4.7 выглядит очень сильным кандидатом именно для реального software engineering repair. [
9]
Терминал, браузер и агентное исполнение: у GPT-5.5 больше побед
Крупнейшее публичное преимущество GPT-5.5 — Terminal-Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, разрыв 13,3 процентного пункта. [14] GPT-5.5 также впереди на BrowseComp, GDPval и OSWorld-Verified: соответственно 84,4% против 79,3%, 84,9% против 80,3% и 78,7% против 78,0%. [
14]
Если ваш продукт завязан на shell-команды, браузерный поиск, файловую систему, действия в операционной системе или многошаговую автоматизацию, GPT-5.5 выглядит естественным первым кандидатом. Но это не означает, что для любых агентных сценариев надо автоматически выбирать GPT. На MCP Atlas Claude Opus 4.7 набирает 79,1% против 75,3% у GPT-5.5; кроме того, Anthropic отдельно подчёркивает улучшения Claude Opus 4.7 в вызове инструментов и планировании. [14][
36]
Профессиональные задачи, рассуждение и математика: всё зависит от формата
В профессиональных и бизнес-задачах тоже нет односторонней победы. По сводке Vellum, GPT-5.5 лидирует на GDPval: 84,9% против 80,3% у Claude Opus 4.7. [14] У Kingy AI картина дробится: Claude Opus 4.7 впереди на FinanceAgent v1.1 — 64,4% против 60,0%, а GPT-5.5 сильнее на OfficeQA Pro — 54,1% против 43,6%. [
6]
С рассуждением и математикой похожая история. На GPQA Diamond Claude Opus 4.7 получает 94,2%, GPT-5.5 — 93,6%; преимущество Claude всего 0,6 процентного пункта. [14][
12] Зато на FrontierMath T1–3 GPT-5.5 набирает 51,7%, а Claude Opus 4.7 — 43,8%, то есть GPT-5.5 впереди на 7,9 процентного пункта. [
14]
Humanity’s Last Exam хорошо показывает ограниченность сторонних сводок. Kingy AI указывает для режима без инструментов 41,4% у GPT-5.5 и 46,9% у Claude Opus 4.7; Mashable для похожего пункта приводит 40,6% у GPT-5.5 и 31,2% у Claude Opus 4.7. [6][
19] Из-за такого расхождения эту метрику лучше не делать главным аргументом при выборе модели.
Как выбирать: не чемпиона, а модель под рабочий процесс
Если основной сценарий — кодовая база, реальные GitHub issue, сложные PR и генерация патчей, начинайте с Claude Opus 4.7. SWE-Bench Pro и данные по SWE-bench Verified поддерживают вывод, что модель очень сильна в задачах software engineering repair. [14][
9]
Если основная нагрузка — терминал, браузер, операции ОС, автоматизированные агенты или профессиональные задачи, близкие к GDPval, первым стоит тестировать GPT-5.5. У него есть публичные победы в Terminal-Bench 2.0, BrowseComp, OSWorld-Verified и GDPval. [14]
Если же ваш рабочий процесс смешанный — код, tool calling, длинное планирование, анализ документов и подготовка отчётов, — не ищите одного «победителя таблицы». GPT-5.5 сильнее смотрится в нескольких execution-бенчмарках, а Claude Opus 4.7 заметнее на SWE-Bench Pro, MCP Atlas и в официальных заявлениях Anthropic о планировании и инструментах. Оба должны попасть в короткий список. [14][
36]
Что проверить перед внедрением
Публичные бенчмарки нужны, чтобы сузить выбор. Перед запуском в production лучше собрать набор реальных задач, скрыть названия моделей и зафиксировать одинаковые условия: промпты, права на инструменты, лимит контекста, лимит времени и правила оценки. Если тестируете GPT-5.5, отдельно зафиксируйте reasoning.effort, потому что документация OpenAI показывает поддержку этой настройки. [23]
Оценивать стоит не только средний балл. Минимум зафиксируйте четыре вещи: выполнена ли задача, можно ли проверить ответ, сколько времени человек тратит на исправления, каковы задержка и стоимость вызовов. Для production-системы модель, которая стабильно меньше ошибается в критическом сценарии, часто ценнее, чем модель, выигравшая несколько процентов на нерелевантном лидерборде.
Главный вывод из текущих открытых данных простой: у GPT-5.5 и Claude Opus 4.7 нет абсолютного победителя. Есть модель, которая лучше подходит под конкретный рабочий контур. [14][
6][
19]




