gpt-5.5 и gpt-5.5-2026-04-23 в API-документации, а страница релиза сообщает, что GPT-5.5 и GPT-5.5 Pro стали доступны в API после обновления от 24 апреля 2026 года У Claude Opus 4.7 в этой четвёрке самая ровная доказательная линия. Anthropic описывает модель как гибридную reasoning-модель, которая продвигает границу возможностей в кодинге и ИИ-агентах, и указывает контекстное окно в 1 млн токенов . На странице модели также говорится о более сильной работе в кодинге, vision-задачах и сложных многошаговых сценариях, а также о лучших результатах в профессиональной knowledge work
.
Главный практический аргумент — длинный контекст. Документация Anthropic говорит, что Claude Opus 4.7 предоставляет контекст 1 млн токенов по стандартной цене API без long-context premium . В том же фрагменте описаны улучшения в задачах knowledge work, особенно там, где модель должна визуально проверять собственный результат: редактирование .docx с tracked changes, правка .pptx, анализ графиков и фигур
.
Есть и полезные сторонние детали, но их лучше держать отдельно от первичных заявлений. Caylent сообщает, что Opus 4.7 поддерживает до 128 тыс. токенов вывода и стандартную цену Opus на уровне $5 за 1 млн входных токенов и $25 за 1 млн выходных токенов . Это может быть полезно для бюджетной оценки, но наиболее сильное ценовое утверждение в доступных первичных материалах — отсутствие надбавки за длинный контекст у Anthropic
.
Осторожность нужна с бенчмарками. Статья Vellum по Claude Opus 4.7 перечисляет категории вроде coding, agentic capabilities, finance, reasoning, multimodal and vision, search и safety, но доступный фрагмент не показывает конкретные баллы, нужные для прямого сравнения с GPT-5.5, DeepSeek V4 и Kimi K2.6 .
GPT-5.5 уже достаточно подтверждён, чтобы попадать в шорт-лист закупки или инженерного теста. Документация OpenAI API перечисляет gpt-5.5 и датированную версию gpt-5.5-2026-04-23, помечает модель как long context и показывает уровни rate limits . Страница релиза OpenAI датирована 23 апреля 2026 года и сообщает, что GPT-5.5 и GPT-5.5 Pro стали доступны в API после обновления от 24 апреля 2026 года
.
Но этого недостаточно, чтобы честно поставить GPT-5.5 выше или ниже остальных трёх моделей. Доступные официальные фрагменты не раскрывают точный размер контекстного окна, лимит вывода, цену, модальности, бенчмарки, качество кодинга или задержки .
Сторонние источники частично закрывают пробелы, но это не то же самое, что документация OpenAI. DesignForOnline указывает цену GPT-5.5 на уровне $5 за 1 млн входных токенов и $30 за 1 млн выходных токенов . LLM Stats сообщает о контексте API 1 млн токенов на вход и 128 тыс. токенов на вывод, а также о text + image input и text output
. Такие цифры стоит воспринимать как список вопросов для проверки у поставщика, а не как окончательное основание для закупки.
Практический вывод простой: GPT-5.5 имеет смысл тестировать рано, если ваш продукт уже завязан на инфраструктуру OpenAI. Но по этим источникам нельзя утверждать, что GPT-5.5 превосходит Claude, DeepSeek или Kimi по бенчмаркам, цене или агентной производительности .
DeepSeek даёт самую предметную ценовую таблицу в этом сравнении. Страница API pricing показывает 1 млн токенов контекста, максимум 384 тыс. токенов вывода, JSON output, tool calls, beta chat-prefix completion и beta FIM completion . Там же указаны строки цен для cache-hit input, cache-miss input и output tokens: в доступном фрагменте фигурируют $0.028 и $0.03625 для cache-hit input, $0.14 и $0.435 для cache-miss input, а также $0.28 и $0.87 для output tokens, при этом часть значений помечена как временная скидка 75%
.
Здесь важно понимать терминологию: cache hit — ситуация, когда часть входного контекста уже закэширована и стоит дешевле; cache miss — когда провайдеру нужно обработать вход заново. Поэтому реальная стоимость DeepSeek может сильно зависеть от того, насколько повторяемы ваши запросы и документы.
V4-специфичная картина подтверждается, но частично через сторонние источники. EvoLink пишет, что по состоянию на 24 апреля 2026 года официальные документы DeepSeek перечисляют deepseek-v4-flash и deepseek-v4-pro, публикуют цены и документируют 1 млн токенов контекста плюс максимум 384 тыс. токенов вывода . Hugging Face сообщает о двух MoE-чекпойнтах: DeepSeek-V4-Pro с 1,6 трлн параметров всего и 49 млрд активных, а также DeepSeek-V4-Flash с 284 млрд параметров всего и 13 млрд активных
. Hugging Face также пишет, что у обеих моделей контекст 1 млн токенов, а бенчмарки конкурентные, но не state of the art
.
OpenRouter отдельно указывает для DeepSeek V4 Pro контекст 1 048 576 токенов и цену $0.435 за 1 млн входных токенов и $0.87 за 1 млн выходных токенов . Это помогает сверить коммерческую картину, но текущие цены всё равно лучше проверять напрямую, потому что собственная страница DeepSeek содержит пометки о временной скидке
.
Практический вывод: DeepSeek V4 стоит тестировать одним из первых, если главный фильтр — цена, длинный контекст, большой вывод, JSON output или tool calls. Но это не означает автоматической победы по качеству, безопасности, задержкам или надёжности работы с инструментами — эти параметры нужно измерять на ваших задачах.
Kimi K2.6 попадает в нужные для рынка сценарии — мультимодальность, кодинг, агентные рабочие процессы, — но точные спецификации в доступном наборе источников подтверждены слабее. Сайт Moonshot говорит, что K2.6 — нативно мультимодальная модель с сильными возможностями кодинга и агентной производительностью . Фрагмент технического блога Kimi говорит, что для воспроизведения официальных результатов Kimi-K2.6 рекомендуется использовать официальный API, а для сторонних провайдеров — Kimi Vendor Verifier, или KVV
.
Более конкретные цифры по Kimi в этом сравнении в основном приходят из внешних источников. LLM Stats указывает контекст 262 144 токена на вход и возможность генерировать до 262 144 токенов на выход . DesignForOnline описывает Kimi K2.6 как модель с контекстом 262K, vision, tool use, function calling и ценой от $0.7500 за 1 млн токенов
. Atlas Cloud указывает стартовую цену Kimi K2.6 API от $0.95 за 1 млн токенов
. Публикация в LinkedIn называет Kimi K2.6 open-weight-моделью, но это пользовательский источник, поэтому такой статус лучше считать неподтверждённым до прямого подтверждения условий лицензии со стороны Moonshot
.
Практический вывод: Kimi K2.6 стоит включать в тесты для мультимодального кодинга и агентных сценариев. Но перед production-решением нужно отдельно проверить лицензию, контекст, лимиты вывода, цену, методологию бенчмарков и совместимость провайдера через Moonshot или официальный API-источник .
Назвать одного победителя было бы красиво, но не очень честно. Доступный фрагмент Vellum по Claude Opus 4.7 перечисляет области бенчмарков, но не даёт конкретных результатов . Страница релиза OpenAI по GPT-5.5 содержит раздел evaluations в структуре страницы, но во фрагменте не показаны числа
. Hugging Face говорит, что результаты DeepSeek V4 конкурентные, но не state of the art
. Блог Kimi отсылает к официальному API для воспроизведения результатов Kimi-K2.6, но сам фрагмент не показывает этих результатов
.
Это важно, потому что лидер может меняться от задачи к задаче. Кодинг, поиск по длинному контексту, анализ документов с изображениями, надёжность tool calling, агентное планирование, задержка ответа и стоимость при cache hit или cache miss — это разные тесты. Без одной и той же методики для всех четырёх моделей заявление «эта модель лучшая вообще» больше похоже на маркетинг, чем на вывод из данных.
gpt-5.5 Для production-решения лучше не полагаться на общие заявления, а провести собственный bake-off. Возьмите одинаковые промпты, одинаковые инструменты, одинаковые объёмы контекста, одинаковые файлы и единую шкалу оценки. Минимальный набор метрик: успешность задачи, надёжность tool calls, точность на длинном контексте, задержка и полная стоимость токенов с учётом входа, вывода и кэша.
Для DeepSeek отдельно считайте cache-hit и cache-miss стоимость, потому что ценовая страница явно разделяет эти строки . Для GPT-5.5 отделяйте то, что подтверждено OpenAI, от сторонних чисел по цене и контексту, пока официальная документация не даст недостающие параметры
. Для Kimi K2.6 считайте провайдерские листинги и пользовательские заявления об open-weight-статусе сигналами для проверки, а не окончательным закупочным доказательством
.
Если смотреть на доказательства, а не на хайп, Claude Opus 4.7 — наиболее ясно задокументированный флагман в этой четвёрке, особенно по контексту 1 млн токенов, кодингу, ИИ-агентам и задачам knowledge work . DeepSeek V4 сильнее всего подтверждён по цене и имеет весомую базу по длинному контексту, но часть деталей по V4 Flash/Pro лучше раскрыта в сторонних сводках, чем в одном фрагменте ценовой страницы
. GPT-5.5 подтверждён в собственных API- и релизных материалах OpenAI, но доступные официальные фрагменты слишком тонкие для полноценного сравнения производительности
. Kimi K2.6 имеет убедительное официальное позиционирование вокруг мультимодальности, кодинга и агентных сценариев, но точные технические и коммерческие параметры всё ещё требуют более сильного первичного подтверждения
.
Comments
0 comments