В открытом доступе нет полноценной таблицы, где все четыре модели сравнивались бы одним оценщиком, в одно время, с одинаковым reasoning effort, одинаковым доступом к инструментам и одинаковыми лимитами. Данные приходится собирать из страниц разработчиков, независимых рейтингов, медийных сводок, API-документации, страниц роутеров и отдельных практических тестов — а методики там различаются.
Это важно не как академическая оговорка, а как практическое ограничение. Artificial Analysis отдельно показывает GPT-5.5 xHigh, GPT-5.5 High и Claude Opus 4.7 Adaptive Reasoning Max Effort; документация OpenAI для GPT-5.5 также перечисляет режимы reasoning effort от none до xhigh. Поэтому лидерство в одном публичном бенчмарке не означает автоматической победы в вашем пайплайне, с вашими промптами, инструментами, задержками и процессом проверки.
Страница OpenAI сообщает, что GPT-5.5 и GPT-5.5 Pro стали доступны 24 апреля 2026 года; в документации API модель gpt-5.5 описана как решение для кодинга и профессиональной работы. Там же указаны контекст 1 млн токенов, максимальный вывод 128K токенов, функции, веб-поиск, поиск по файлам и computer use.
По публичным бенчмаркам GPT-5.5 удобнее всего рассматривать как высокопроизводительную базу для сравнения. Artificial Analysis дает GPT-5.5 xHigh 60 баллов, а High — 59; VentureBeat приводит 82,7% в Terminal-Bench 2.0, выше Claude Opus 4.7 с 69,4% и DeepSeek V4 с 67,9%.
Главный минус — стоимость. В документации OpenAI указано $5 за 1 млн входных токенов и $30 за 1 млн выходных. Если задача порождает длинные отчеты, многошаговые агентные циклы или большой объем вывода, цена выходных токенов быстро становится ключевой переменной.
Где тестировать первым: сложные coding agents, автоматизация в терминале, исследования с несколькими инструментами, профессиональные workflow с функциями, веб-поиском и поиском по файлам.
Claude Opus 4.7 публично позиционируется как модель для долгих, многошаговых и аккуратных задач. Anthropic пишет, что Opus 4.7 в ее внутреннем research-agent benchmark разделил первое место с общим результатом 0,715 и показал наиболее стабильную работу с длинным контекстом; в модуле General Finance результат составил 0,813 против 0,767 у Opus 4.6.
В сводке VentureBeat по Humanity’s Last Exam без инструментов Claude Opus 4.7 набрал 46,9%, выше GPT-5.5 с 41,4% и DeepSeek V4 с 37,7%. С инструментами Claude получает 54,7% — выше базового GPT-5.5 с 52,2%, но ниже GPT-5.5 Pro с 57,2%.
При этом Claude не обгоняет GPT-5.5 по всем жестким метрикам. В Terminal-Bench 2.0 у GPT-5.5 82,7%, тогда как у Claude Opus 4.7 — 69,4%. Есть и сторонняя оценка, где Opus 4.7 показывает 82,4% на SWE-bench Verified, но это не единое сравнение всех четырех моделей и не тот же набор, что SWE-Bench Pro, поэтому смешивать эти числа в один общий рейтинг нельзя.
Где тестировать первым: исследование длинных документов, финансовые материалы, анализ с требованием показывать основания и сохранять дисциплину данных, многошаговые рассуждения с проверкой результата.
У DeepSeek V4 самый ясный козырь — стоимость. Mashable приводит для DeepSeek V4 API $1,74 за 1 млн входных токенов и $3,48 за 1 млн выходных; в той же сводке GPT-5.5 стоит $5/$30, а Claude Opus 4.7 — $5/$25.
По качеству DeepSeek V4 близок к переднему краю, но в этих публичных сводках не становится безусловным лидером. VentureBeat указывает 37,7% на HLE без инструментов и 48,2% с инструментами — ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7. В Terminal-Bench 2.0 результат DeepSeek 67,9% близок к Claude 69,4%, но заметно ниже GPT-5.5 с 82,7%.
Практический вывод: DeepSeek V4 стоит рассматривать не как автоматическую замену всем закрытым frontier-моделям, а как первого кандидата для систем, где цена вызовов критична. Вопрос не в том, дешевле ли он, а в том, проходит ли он вашу планку качества и перекрывает ли низкая цена возможные повторы, ручную проверку и задержки.
Где тестировать первым: пакетная обработка, высоконагруженный inference, приложения с низкой маржинальностью, сценарии, где допустима дополнительная проверка, но нужно сильно снизить token cost.
Kimi K2.6 интересен прежде всего открытыми весами, мультимодальностью и длинным контекстом. Artificial Analysis называет его новой ведущей моделью с открытыми весами и пишет, что Kimi K2.6 нативно поддерживает изображения и видео на входе, текст на выходе и максимальный контекст 256K.
OpenRouter указывает для Kimi K2.6 Artificial Analysis Intelligence 53,9, Coding 47,1 и Agentic 66,0, а также максимум 256K токенов и максимальный вывод 66K. В веб-исследовательской метрике BrowseComp DocsBot приводит для Kimi K2.6 83,2%, а для GPT-5.5 — 84,4%.
Это выглядит многообещающе, но есть важная оговорка: часть материалов по Kimi K2.6 сравнивает его в основном с GPT-5.4 или Claude Opus 4.6, а не с GPT-5.5, Claude Opus 4.7 и DeepSeek V4 в единой постановке. Поэтому Kimi — сильный кандидат на тест, но не модель, по которой уже есть исчерпывающая публичная横comparison против всей четверки.
Где тестировать первым: экосистемы с открытыми весами, команды, которым важна автономность развертывания, длинный контекст, изображение или видео на входе, поиск баланса между ценой, контролем и качеством.
Цена API — только часть полной стоимости. В руководстве OpenAI для GPT-5.5 прямо говорится, что tool-heavy и long-running workflow нужно сравнивать с другими моделями по точности, расходу токенов и end-to-end задержке; документация моделей также показывает, что reasoning effort у GPT-5.5 можно менять от none до xhigh.
Публичные бенчмарки помогают сузить список, но не заменяют приватную оценку. Минимальный набор метрик для закупки или технического выбора: доля успешных задач, типы ошибок, полная задержка до результата, расход токенов с учетом повторов. OpenAI также рекомендует для долгих или насыщенных инструментами workflow сравнивать модели по accuracy, token consumption и end-to-end latency.
Личные тесты полезны как дополнительный сигнал, но не как окончательная таблица чемпионата. В апрельском coding-тесте AkitaOnRails за 2026 год Claude Opus 4.7 получил 97 баллов, GPT-5.5 xHigh Codex — 96, Kimi K2.6 — 87, DeepSeek V4 Pro — 69. Там же указаны примерные расходы: около $1,10 для Claude Opus 4.7, около $10 для GPT-5.5 xHigh Codex, около $0,30 для Kimi K2.6 и около $0,50 для DeepSeek V4 Pro.
Ценность таких тестов в другом: они напоминают, что итоговый выбор зависит от вашей кодовой базы, прав доступа к инструментам, структуры промптов, стандартов проверки и стоимости повторных попыток, а не от одной красивой цифры в рейтинге.
Если нужно выбрать одну модель для первого раунда оценки, начните с GPT-5.5. Она лидирует в Artificial Analysis Intelligence Index и в сводке VentureBeat по Terminal-Bench 2.0.
Если задача ближе к длинным документам, финансовым материалам, сложному многошаговому анализу и строгой работе с данными, Claude Opus 4.7 должен быть в первом эшелоне тестов. Данные Anthropic по research-agent benchmark и сводка VentureBeat по HLE поддерживают его сильные стороны в этих сценариях.
Если главный ограничитель — объем вызовов и бюджет, DeepSeek V4 стоит первым проверять на кривой цена/качество. Публичная ценовая сводка показывает, что входные и выходные токены у него существенно дешевле, чем у GPT-5.5 и Claude Opus 4.7.
Если нужны открытые веса, мультимодальный ввод или контекст 256K, Kimi K2.6 — один из самых заметных кандидатов в доступных материалах. Но полного同source сравнения Kimi с GPT-5.5, Claude Opus 4.7 и DeepSeek V4 все еще не хватает.
Самая надежная стратегия проста: публичные бенчмарки использовать, чтобы понять, с кого начать, а финальное решение принимать на собственных задачах. Рейтинги сужают выбор, но не берут на себя ваши компромиссы между качеством, стоимостью и задержкой.
Comments
0 comments