DeepSeek V4 лучше понимать не как прорыв «с фейерверком», а как инженерное улучшение: V4 preview обещает большую эффективность и более длинные запросы, а V4 Pro заметно прибавила в тестах.[1][8]
Для терминальных coding агентов в общей таблице сильнее выглядит GPT 5.5 с 82,7% на Terminal Bench 2.0; для задач ремонта кода лидирует Claude Opus 4.7 — 64,3% на SWE Bench Pro и 87,6% на SWE Bench Verified...
Самый надежный общий срез для четырех моделей в доступных данных — Terminal Bench 2.0: GPT 5.5 набирает 82,7 %, Claude Opus 4.7 — 69,4 %, DeepSeek V4 Pro Max — 67,9 %, Kimi K2.6 Thinking — 66,7 %.[29][30][6]
Самая надежная короткая формулировка: GPT 5.5, по данным OpenAI, набирает 84,9% в GDPval — тесте на выполнение четко заданной интеллектуальной работы в 44 профессиях.[1]
У Claude Opus 4.7 есть официально заявленное улучшение vision возможностей: Anthropic пишет о «substantially better vision» по сравнению с Opus 4.6 и поддержке изображений более высокого разрешения.[9]
Claude Opus 4.7 заслуживает места в коротком списке для долгих AI агентов: Anthropic и Microsoft Foundry связывают модель с длительными агентными задачами и контекстом до 1 млн токенов.
Vals AI ставит Gemini 3.1 Pro Preview на первое место в AIME с точностью 98,13%, что делает его самым ясным выбором именно для этого бенчмарка.[1]
Самая надёжная часть истории: СМИ сообщали, что OpenAI готовит модель под кодовым названием Spud, а The Decoder пересказал данные о завершённом pretraining.
В рассмотренных официальных материалах OpenAI нет подтверждения публичной GPT 5.5 Spud или отдельного long context бенчмарка для Spud; документы указывают на GPT 5.4 [46][58][59].
Нет проверенных head to head данных, показывающих, что Claude Opus 4.7 или GPT 5.5 Spud меньше подвержен регрессионному дрейфу.
В официальных источниках OpenAI, проверенных здесь, документирована GPT 5.4; отдельной публичной страницы GPT 5.5 или Spud в этом наборе нет [20][23][24].
Главный вывод: по предоставленным источникам нельзя подтвердить, что GPT 5.5 Spud уже официально вышла, и нельзя доказать, что она стала человечнее, креативнее, стабильнее или просто быстрее.[2][4][28][30]