Не стоит читать эти данные как окончательный рейтинг «лучшей модели»: настройки вывода, даты оценки и методики у источников различаются.
Строгого общего рейтинга для всех четырех моделей сейчас не получается: в одной таблице OpenAI Claude Opus 4.7 выше GPT 5.5 на SWE Bench Pro — 64,3% против 58,6%, зато GPT 5.5 выше на Terminal Bench 2.0 — 82...
Kimi K2.6 — главный кандидат для первого теста в высокообъёмных coding agent сценариях: OpenRouter указывает 262 144 токена контекста и $0,75/$3,50 за 1 млн входных/выходных токенов, а effective pricing — $0...
Для задач, где нужно из короткого запроса пройти путь от поиска и анализа до кода и документов, логичнее начинать с GPT 5.5; для длинного контекста, кодовой базы и агентных циклов — с Claude Opus 4.7.
Для закупки API, длинного контекста и корпоративного развертывания Claude Opus 4.7 сейчас проще оценить: Anthropic раскрыла 1 млн токенов контекста, отсутствие long context premium в стандартном API, цену $5...
Публичные данные не дают полного очного матча: Opus 4.7 лидирует в GDPval AA с 1 753 Elo, а GPT 5.5 имеет 59, 51 и 41 балл в Intelligence Index для high, low и non reasoning, плюс интеграцию с ChatGPT и Code...
Claude Opus 4.7 лучше подкреплён публичными цифрами для разработки и tool heavy агентов: Vellum сообщает 87,6 % на SWE bench Verified и 77,3 % на MCP Atlas [3].
Claude Opus 4.7 сейчас выглядит более готовым вариантом для корпоративного API пилота: Anthropic указывает API, многооблачные каналы, цену $5/$25 за 1 млн входных/выходных токенов, окно 1 млн токенов и крупн...
Claude Opus 4.7 можно оценивать как реальную модель: Anthropic указывает claude opus 4 7 для Claude API.
Единого честного рейтинга пока нет: числа собраны из разных источников и при разных условиях.
Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7].
Самый устойчиво подтверждённый показатель Claude Opus 4.7 в доступных источниках — 87,6 % на SWE bench Verified.