Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
Claude Opus 4.7 выглядит лучшим первым кандидатом, если важнее всего качество: в сопоставимых данных он впереди GPT 5.5 и DeepSeek V4 на HLE, а CodeRouter даёт ему 64,3% на SWE Bench Pro [3][16].
LLM Stats: Claude Opus 4.7 ведёт в 6 из 10 общих бенчмарков, GPT 5.5 — в 4; BenchLM предупреждает, что данных пока недостаточно для честного score level сравнения.[1][3]
Единого победителя нет: Claude Opus 4.7 впереди на SWE Bench Pro — 64,3% против 58,6%, а GPT 5.5 лидирует на Terminal Bench 2.0 — 82,7% против 69,4%; эти цифры полезны для первичного отбора, но не заменяют в...
Официально для GPT 5.5 подтверждены 82,7% на Terminal Bench 2.0 и 58,6% на SWE Bench Pro; для DeepSeek V4 официально подтверждена прежде всего доступность V4 Pro и V4 Flash в API [24][25].
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
По сводке десяти общих бенчмарков Claude Opus 4.7 лидирует в 6 тестах, GPT 5.5 — в 4.
Честного рейтинга 1–4 пока нет: Artificial Analysis дает Claude Opus 4.7 57 баллов, GPT 5.5 xhigh — 60, а LLM Stats показывает, что Claude и GPT 5.5 выигрывают разные наборы тестов [12][14][15].
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90....
В прямых таблицах GPT 5.5 заметно сильнее в Terminal Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, а Claude лидирует в SWE Bench Pro Public: 64,3% против 58,6% [5].
Универсального победителя нет: GPT‑5.5 сильнее выглядит в агентной работе с инструментами, Claude Opus 4.7 — в repo level coding, Kimi K2.6 — среди open weights coding моделей, а DeepSeek V4 стоит тестироват...
Универсального победителя нет: LLM Stats формулирует главный вывод так — бенчмарки выбирают не лучшую модель вообще, а подходящую рабочую нагрузку [2].