Claude Opus 4.7 можно оценивать как реальную модель: Anthropic указывает claude opus 4 7 для Claude API.
Единого честного рейтинга пока нет: числа собраны из разных источников и при разных условиях.
Самый быстрый путь — проверить ChatGPT или Codex: GPT 5.5 поэтапно разворачивается для пользователей Plus, Pro, Business и Enterprise, а в документации API доступ помечен как coming soon.[20][1]
Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестов...
Самый устойчиво подтверждённый показатель Claude Opus 4.7 в доступных источниках — 87,6 % на SWE bench Verified.
Claude Opus 4.7 выглядит лучшим первым кандидатом, если важнее всего качество: в сопоставимых данных он впереди GPT 5.5 и DeepSeek V4 на HLE, а CodeRouter даёт ему 64,3% на SWE Bench Pro [3][16].
LLM Stats: Claude Opus 4.7 ведёт в 6 из 10 общих бенчмарков, GPT 5.5 — в 4; BenchLM предупреждает, что данных пока недостаточно для честного score level сравнения.[1][3]
Единого победителя нет: в BenchLM DeepSeek V4 Flash High лидирует в coding со средним баллом 72,2 против 58,6 у GPT 5.5, а GPT 5.5 лидирует в agentic tasks с 81,8 против 55,4 [13].
В кодинге публичная таблица DeepSeek показывает преимущество DS V4 Pro Max: LiveCodeBench Pass@1 — 93,5 против 89,6 у Kimi K2.6 Thinking [18][35].
Официально для GPT 5.5 подтверждены 82,7% на Terminal Bench 2.0 и 58,6% на SWE Bench Pro; для DeepSeek V4 официально подтверждена прежде всего доступность V4 Pro и V4 Flash в API [24][25].
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
По сводке десяти общих бенчмарков Claude Opus 4.7 лидирует в 6 тестах, GPT 5.5 — в 4.