Сравнение DeepSeek V4 и GPT‑5.5 лучше начинать не с вопроса, кто выиграл все рейтинги. Полезнее спросить иначе: какие данные достаточно надёжны, чтобы выбрать модель под реальную нагрузку — coding agent, работу с длинными документами, tool-use, поиск по файлам или ответы, где ошибка дорого стоит.
На текущем наборе публичных источников GPT‑5.5 выглядит более предсказуемым выбором для API-интеграции: OpenAI прямо указывает model ID gpt-5.5, окно контекста 1M токенов, максимум 128K output tokens, цену $5 за input MTok и $30 за output MTok, а также поддержку Functions, Web search, File search и Computer use [22]. DeepSeek V4 Pro сильнее выделяется по другой линии: Artificial Analysis описывает его как open weights модель с text input/text output и контекстом 1m tokens [
35].
Короткий вывод
Если вам нужен production API с понятными лимитами, ценой и официальным tool-use, начинать проще с GPT‑5.5. Ключевые параметры — context window, max output, стоимость и поддерживаемые инструменты — опубликованы в документации OpenAI [22].
Если вам принципиально нужны open weights, DeepSeek V4 Pro стоит включить в тестовый пул. Но важно не расширять это утверждение сверх источника: Artificial Analysis называет DeepSeek V4 Pro open weights; это само по себе не доказывает, что открыты обучающие данные, тренировочный код или весь pipeline [35].
Если вопрос звучит как какая модель объективно сильнее по всем бенчмаркам, честный ответ пока такой: публичных независимых данных, собранных в одинаковых условиях, недостаточно для окончательного вердикта. Есть отдельные фрагменты: результат SWE‑bench из стороннего источника [2], параметры и сравнения Artificial Analysis [
33][
41], а также API- и safety-документация OpenAI [
22][
24].
Что известно надёжнее всего
В документации DeepSeek есть страница DeepSeek‑V4 Preview Release с датой 24 апреля 2026 года [13]. OpenAI представила GPT‑5.5 23 апреля 2026 года, а 24 апреля обновила публикацию: GPT‑5.5 и GPT‑5.5 Pro стали доступны в API [
27]. Релизы появились почти одновременно, но объём публичной технической информации по ним различается.
| Критерий | GPT‑5.5 | DeepSeek V4 Pro | Как это читать при выборе |
|---|---|---|---|
| Публичный статус | OpenAI представила GPT‑5.5 23 апреля 2026 года; API-доступ указан с 24 апреля 2026 года [ | В документации DeepSeek есть V4 Preview Release от 24 апреля 2026 года [ | По календарю модели вышли почти синхронно |
| API-параметры | gpt-5.5, context 1M, max output 128K, $5/input MTok, $30/output MTok, официальные tools [ | В доступных источниках для V4 Pro подтверждены text input/output и context 1m tokens [ | GPT‑5.5 проще считать по бюджету, output-лимитам и tool-use |
| Открытость | Artificial Analysis описывает GPT‑5.5 high как proprietary [ | Artificial Analysis описывает DeepSeek V4 Pro как open weights [ | DeepSeek логичнее, если open weights — обязательное условие |
| Окно контекста | OpenAI API docs указывают 1M tokens [ | Artificial Analysis указывает 1m tokens [ | У обеих моделей заявлен очень длинный контекст |
| Image input | В сравнении Artificial Analysis у GPT‑5.5 high отмечена поддержка image input [ | Там же для DeepSeek V4 Pro high указано отсутствие image input [ | Для multimodal input текущие данные склоняют выбор к GPT‑5.5 |
| Tool support | Functions, Web search, File search, Computer use [ | Сопоставимой таблицы tool support в приведённых источниках нет | Для agentic workflow у GPT‑5.5 сейчас лучше документированная база |
Есть важная тонкость с контекстом. OpenAI API docs указывают для GPT‑5.5 окно 1M tokens [22], а страница сравнения Artificial Analysis для GPT‑5.5 high показывает 922k tokens, тогда как DeepSeek V4 Pro high — 1000k tokens [
41]. Поэтому нельзя механически складывать цифры из разных таблиц: нужно проверять variant, reasoning level и то, как конкретный источник определяет context window.
Каким бенчмаркам верить
SWE‑bench Verified: сильный сигнал для coding, но не финальный приговор
Сводный материал o‑mega сообщает, что GPT‑5.5 набирает 88,7% на SWE‑bench Verified против 80,6% у DeepSeek V4‑Pro — разница 8,1 процентного пункта [2]. Для software engineering это заметный сигнал.
Но один результат SWE‑bench не заменяет внутренний benchmark. У coding agent итог может сильно зависеть от prompt, reasoning level, доступа к инструментам, числа retry, способа запуска тестов, формата patch и harness, который выставляет оценку. Поэтому 88,7% против 80,6% — это хороший аргумент сначала протестировать GPT‑5.5 на coding-сценариях, но не доказательство, что она лучше во всех задачах [2].
System card OpenAI: широкий набор eval, но не head-to-head с DeepSeek
OpenAI Deployment Safety Hub пишет, что controllability для GPT‑5.5 измерялась через CoT‑Control — набор из более чем 13 000 задач, построенных на базе GPQA, MMLU‑Pro, HLE, BFCL и SWE‑Bench Verified [24]. Это полезно для понимания того, как OpenAI проверяла GPT‑5.5.
Но это не таблица прямого сравнения GPT‑5.5 и DeepSeek V4. Такой источник нельзя в одиночку использовать, чтобы заявить, что GPT‑5.5 выигрывает или проигрывает DeepSeek V4 на GPQA, MMLU‑Pro или SWE‑Bench Verified [24].
AA‑Omniscience: у DeepSeek V4 есть прирост knowledge, но hallucination — красный флаг
Artificial Analysis пишет, что DeepSeek V4 Pro Max набирает −10 на AA‑Omniscience, улучшившись на 11 пунктов относительно V3.2 Reasoning с результатом −21; DeepSeek V4 Flash Max получает −23 [33]. В том же источнике указаны очень высокие hallucination rate: 94% для DeepSeek V4 Pro и 96% для V4 Flash. Иными словами, когда модель не знает ответ, она почти всегда всё равно отвечает [
33].
Для продуктов, где нужна проверяемая фактура, это критично: внутренний поиск по документам, юридические и финансовые материалы, compliance, медицинские сценарии, системы с обязательными ссылками на источники. DeepSeek V4 Pro может быть привлекателен из-за open weights и длинного контекста, но factual workflow лучше строить с retrieval, проверкой цитат, валидацией источников и human review там, где цена ошибки высока [33][
35].
Когда выбирать GPT‑5.5
GPT‑5.5 выглядит более удобной стартовой точкой, если главная задача — быстро и предсказуемо встроить модель в API-продукт. OpenAI прямо публикует model ID, цену, context window, max output, knowledge cutoff 1 декабря 2025 года и список инструментов: Functions, Web search, File search, Computer use [22].
GPT‑5.5 также выглядит сильным кандидатом для coding agent, если ориентироваться на доступный сторонний результат SWE‑bench Verified [2]. Но даже здесь лучше прогнать модель на реальных репозиториях, задачах и правилах вашей команды, а не принимать решение только по публичному проценту.
Когда выбирать DeepSeek V4 Pro
DeepSeek V4 Pro стоит рассматривать в первую очередь там, где open weights — не приятный бонус, а жёсткое требование. Artificial Analysis описывает DeepSeek V4 Pro как open weights модель, выпущенную в апреле 2026 года, с поддержкой text input/output и context window 1m tokens [35].
Главный компромисс — factual reliability. Если опираться на hallucination rate 94% для DeepSeek V4 Pro в AA‑Omniscience, сценарии с требованием точного ответа должны иметь отдельный слой проверки, а не просто отдавать пользователю первый уверенный ответ модели [33].
Если нужны image input и официальный tool-use
На странице сравнения DeepSeek V4 Pro high и GPT‑5.5 high Artificial Analysis указывает, что GPT‑5.5 high поддерживает image input, а DeepSeek V4 Pro high — нет [41]. В сочетании с тем, что OpenAI документирует Functions, Web search, File search и Computer use для GPT‑5.5, текущие источники дают GPT‑5.5 преимущество для multimodal workflow и агентных сценариев с официальными инструментами [
22][
41].
Как тестировать модели перед решением
Если вы выбираете default-модель, покупаете API или строите multi-model routing, сравнивайте модели в одинаковых условиях, а не просто переносите проценты из разных рейтингов.
- Зафиксируйте variant и reasoning level. OpenAI указывает для GPT‑5.5 уровни reasoning none, low, medium, high и xhigh [
22]; Artificial Analysis также разделяет сравнения по low, medium и high [
3][
37][
41].
- Используйте один prompt, одни данные и один harness. Нельзя честно сравнивать модель с оптимизированным prompt против модели, которой дали сырой prompt.
- Выравнивайте tool policy. В coding agent результат может измениться только из-за числа retry, права запускать тесты или права менять несколько файлов.
- Считайте не только accuracy. Отдельно измеряйте форматные ошибки, стабильность output, token cost, latency и долю задач, которые уходят на human review.
- Сделайте отдельный тест на hallucination. Это особенно важно для DeepSeek V4 Pro и V4 Flash из-за высоких показателей hallucination в AA‑Omniscience [
33].
- Добавьте реальные данные вашего продукта. Если сервис работает с русскоязычными пользователями, документами или кодовой базой, включите такие примеры во внутренний eval.
Итоговый verdict
GPT‑5.5 — более предсказуемый выбор для старта, если вам нужен production API, coding agent с tool-use, понятный max output и опубликованная цена [22]. DeepSeek V4 Pro — сильный кандидат на тестирование, если open weights являются обязательным условием и вы готовы строить слой проверки для factual QA [
33][
35].
А на вопрос, кто выиграл benchmark-войну целиком, корректный ответ пока осторожный: публичных данных, собранных независимо и в одинаковых условиях, недостаточно. Текущие сигналы склоняют выбор к GPT‑5.5 по SWE‑bench Verified в одном стороннем источнике [2], по API-документации и tool support [
22], а DeepSeek V4 Pro выделяется open weights и длинным контекстом [
35].




