| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7 ведёт в сложном тесте на исправление реальных GitHub-issue; OpenAI также публикует для GPT-5.5 результат 58,6% на этом тесте |
| GPQA Diamond | 93,6% | 94,2% | Claude чуть впереди, но разрыв всего 0,6 процентного пункта — этого мало, чтобы объявлять победителя для всех reasoning-задач |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 ведёт в таблицах Vellum и Mashable |
| GDPval | 84,9% | 80,3% | GPT-5.5 ведёт в сводке Vellum |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 лишь немного впереди; такой разрыв лучше перепроверять на собственных сценариях |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 ведёт в этом тесте на orchestration инструментов по таблице Vellum |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5 ведёт в таблице Vellum |
| FinanceAgent v1.1 | Нет полной пары чисел в предоставленных источниках | 64,4% в DataCamp | LLM Stats относит лидерство к Claude Opus 4.7, но без полной сопоставимой пары чисел здесь лучше быть осторожнее |
| Humanity’s Last Exam | Данные расходятся | Данные расходятся | Не лучший tie-breaker без повторного запуска в одинаковых условиях: LLM Stats, Mashable и o-mega дают разные сигналы |
Если смотреть на агрегированную картину LLM Stats, Claude Opus 4.7 ведёт в 6 из 10 бенчмарков, по которым оба поставщика дают результаты, а GPT-5.5 — в 4. Там же вывод формулируется так: сильные стороны Claude чаще лежат в reasoning-heavy и review-grade тестах, а GPT-5.5 — в долгом tool-use и shell-driven задачах . Это полезная рамка, но она не снимает проблему спорных строк вроде Humanity’s Last Exam
.
Если ваш сценарий — агентный кодинг через терминал, GPT-5.5 выглядит более сильным кандидатом по текущим публичным данным. В Terminal-Bench 2.0 он набирает 82,7% против 69,4% у Claude Opus 4.7 . OpenAI объясняет, что этот тест проверяет сложные command-line workflow: модель должна планировать, запускать команды, анализировать результат, повторять попытки и координировать инструменты
.
Это важно для CLI-copilot, DevOps-ассистента или coding agent, который должен сам запускать тесты, читать ошибки, править файлы и повторять цикл. Для такого класса задач Terminal-Bench 2.0 полезнее, чем общий тест на абстрактное reasoning.
Но если задача ближе к исправлению реальных issues в репозитории, Claude Opus 4.7 получает преимущество. На SWE-Bench Pro он показывает 64,3% против 58,6% у GPT-5.5 . OpenAI описывает SWE-Bench Pro как оценку способности решать реальные GitHub-issue
. Поэтому для bug fixing, изменений в больших repo и review-grade software tasks Claude Opus 4.7 стоит включать в первый раунд тестирования.
С SWE-Bench Verified картина менее чистая. MindStudio указывает для Claude Opus 4.7 результат 82,4%, тогда как APIyi и DataCamp приводят 87,6%; в предоставленных источниках нет стабильной пары GPT-5.5 vs Claude Opus 4.7 для одной и той же строки этого теста .
В агентных сценариях GPT-5.5 часто выглядит убедительно. В таблице Vellum он ведёт на BrowseComp — 84,4% против 79,3%, на GDPval — 84,9% против 80,3%, и на OSWorld-Verified — 78,7% против 78,0% . Mashable также приводит для BrowseComp ту же пару результатов: 84,4% у GPT-5.5 и 79,3% у Claude Opus 4.7
. LLM Stats добавляет, что GPT-5.5 ведёт в CyberGym, хотя в доступном фрагменте не показаны проценты
.
У Claude Opus 4.7 есть свои сильные зоны. В Vellum он опережает GPT-5.5 на MCP Atlas: 79,1% против 75,3% . LLM Stats относит к Claude лидерство в FinanceAgent v1.1, а DataCamp указывает для Claude Opus 4.7 результат 64,4% на этом тесте
. Anthropic также описывает Claude Opus 4.7 как новую версию Opus с усилением в coding, agents, vision и многошаговых задачах
.
Практический вывод простой: если ваш workflow завязан на shell, browsing или автоматизацию в стиле работы с ОС, GPT-5.5 логично тестировать первым. Если важнее структурированная orchestration инструментов, MCP-сценарии или финансовые agent-workflow, Claude Opus 4.7 не стоит отсеивать по одной общей таблице.
На GPQA Diamond Claude Opus 4.7 набирает 94,2%, GPT-5.5 — 93,6% . Это плюс в пользу Claude, но разрыв в 0,6 процентного пункта слишком мал, чтобы переносить его на любые научные, аналитические или экспертные задачи. Для реального выбора лучше прогнать обе модели на собственном наборе вопросов и кейсов.
С Humanity’s Last Exam ситуация ещё менее удобная. LLM Stats пишет, что Claude Opus 4.7 ведёт и в HLE без tools, и в HLE with tools . Mashable, наоборот, приводит 40,6% у GPT-5.5 против 31,2% у Opus 4.7 в HLE без tools, но 54,7% у Claude против 52,2% у GPT-5.5 в версии with tools
. o-mega добавляет ещё один набор чисел по HLE
. Пока условия запуска не выровнены, HLE не стоит использовать как решающий аргумент.
Начните с GPT-5.5, если главное — агент, который долго работает в терминале, запускает команды, чинит ошибки по логам, проходит test loop или автоматизирует многошаговые shell-сценарии. Terminal-Bench 2.0 здесь заметно склоняется в сторону GPT-5.5 . GPT-5.5 также выглядит хорошим первым кандидатом для browsing/search-style workflow, GDPval, OSWorld-Verified и FrontierMath T1–3 по таблицам Vellum и Mashable
.
Начните с Claude Opus 4.7, если задача похожа на SWE-Bench Pro: исправление сложных issue, работа с реальным repo, оценка качества изменений и архитектурные правки. В этом тесте Claude опережает GPT-5.5 . Claude также стоит держать в shortlist для GPQA-style scientific reasoning, MCP/tool orchestration и finance-agent задач — по GPQA Diamond, MCP Atlas, FinanceAgent v1.1 и сводке LLM Stats
.
Самый безопасный подход — не выбирать модель по одному лидерборду. Разбейте свои сценарии на четыре корзины: кодинг внутри repo, terminal/agent automation, reasoning без tools и workflow с tools. Для каждой корзины запускайте одинаковые prompt, одинаковый доступ к инструментам, одинаковые sampling-настройки, одинаковый reasoning effort и одинаковые критерии оценки. Публичные бенчмарки помогают понять, с кого начать; внутренний eval показывает, кого действительно стоит пускать в продукт, особенно когда часть публичных оценок может быть self-reported или не подтверждена независимой проверкой .
Comments
0 comments