Официально подтверждённый факт: в документации DeepSeek API указано «DeepSeek V4 Preview Release» от 24 апреля 2026 года.[13] Но это скорее стадия ранней оценки, а не повод объявлять модель безусловно лучшей...
Публичные данные не дают полного очного матча: Opus 4.7 лидирует в GDPval AA с 1 753 Elo, а GPT 5.5 имеет 59, 51 и 41 балл в Intelligence Index для high, low и non reasoning, плюс интеграцию с ChatGPT и Code...
Claude Opus 4.7 лучше подкреплён публичными цифрами для разработки и tool heavy агентов: Vellum сообщает 87,6 % на SWE bench Verified и 77,3 % на MCP Atlas [3].
Claude Opus 4.7 можно оценивать как реальную модель: Anthropic указывает claude opus 4 7 для Claude API.
Единого честного рейтинга пока нет: числа собраны из разных источников и при разных условиях.
Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестов...
Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7].
Самая цитируемая цифра Claude Mythos Preview — 93,9% в SWE bench, бенчмарке для задач разработки ПО и работы с кодом [1][2].
Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
LLM Stats: Claude Opus 4.7 ведёт в 6 из 10 общих бенчмарков, GPT 5.5 — в 4; BenchLM предупреждает, что данных пока недостаточно для честного score level сравнения.[1][3]
Официально для GPT 5.5 подтверждены 82,7% на Terminal Bench 2.0 и 58,6% на SWE Bench Pro; для DeepSeek V4 официально подтверждена прежде всего доступность V4 Pro и V4 Flash в API [24][25].
Для практического кодирования и правки репозиториев первым кандидатом выглядит Kimi K2.6: в LLM Coding Benchmark от AkitaOnRails модель набрала 87 баллов и попала в Tier A, тогда как DeepSeek V4 Flash получи...