Единого честного рейтинга пока нет: числа собраны из разных источников и при разных условиях.
Самый быстрый путь — проверить ChatGPT или Codex: GPT 5.5 поэтапно разворачивается для пользователей Plus, Pro, Business и Enterprise, а в документации API доступ помечен как coming soon.[20][1]
Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестов...
Claude Opus 4.7 выглядит лучшим первым кандидатом, если важнее всего качество: в сопоставимых данных он впереди GPT 5.5 и DeepSeek V4 на HLE, а CodeRouter даёт ему 64,3% на SWE Bench Pro [3][16].
LLM Stats: Claude Opus 4.7 ведёт в 6 из 10 общих бенчмарков, GPT 5.5 — в 4; BenchLM предупреждает, что данных пока недостаточно для честного score level сравнения.[1][3]
Единого победителя нет: в BenchLM DeepSeek V4 Flash High лидирует в coding со средним баллом 72,2 против 58,6 у GPT 5.5, а GPT 5.5 лидирует в agentic tasks с 81,8 против 55,4 [13].
Единого победителя нет: Claude Opus 4.7 впереди на SWE Bench Pro — 64,3% против 58,6%, а GPT 5.5 лидирует на Terminal Bench 2.0 — 82,7% против 69,4%; эти цифры полезны для первичного отбора, но не заменяют в...
Официально для GPT 5.5 подтверждены 82,7% на Terminal Bench 2.0 и 58,6% на SWE Bench Pro; для DeepSeek V4 официально подтверждена прежде всего доступность V4 Pro и V4 Flash в API [24][25].
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
По сводке десяти общих бенчмарков Claude Opus 4.7 лидирует в 6 тестах, GPT 5.5 — в 4.
Честного рейтинга 1–4 пока нет: Artificial Analysis дает Claude Opus 4.7 57 баллов, GPT 5.5 xhigh — 60, а LLM Stats показывает, что Claude и GPT 5.5 выигрывают разные наборы тестов [12][14][15].
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90....