Официально для GPT 5.5 подтверждены 82,7% на Terminal Bench 2.0 и 58,6% на SWE Bench Pro; для DeepSeek V4 официально подтверждена прежде всего доступность V4 Pro и V4 Flash в API [24][25].
Claude Code логичнее выбирать для terminal first цикла репозиторий → команда → тест → лог → diff; Codex — когда нужно распараллеливать задачи через изолированные worktree и reviewable diffs/PR [15][27].
Если считать только API‑токены, самый дешёвый вариант в этих данных — gpt 5.1 codex mini: $2,25 за 1 млн входных + 1 млн выходных токенов без кэша против $30,00 у Claude Opus 4.7/4.6/4.5.
Выбирайте Codex, если нужен широкий workflow coding agent в экосистеме OpenAI: app, IDE, CLI, web, review, automations, worktrees и интеграции [2].
Если нужен один стартовый инструмент для существующих репозиториев, чтения кода, отладки, рефакторинга и git процессов, Claude Code выглядит более естественным выбором.
Если нужен один основной AI coding agent на каждый день, разумно начать с Claude Code: его официальная документация явно покрывает instructions/memories, common workflows, best practices, расширения, платфор...
Для UI задач с опорой на макет Claude Code — более безопасный старт: в тесте Figma to Next.js он лучше сохранил структуру дизайна и изображения [6].
Для долгой локальной работы в репозитории, отладки и рефакторинга логичнее начать с Claude Code: Anthropic прямо описывает его как инструмент, который читает codebase, редактирует файлы и запускает команды [...
Claude Code лучше задокументирован для повседневной работы с репозиторием, многофайловых задач и локальных разрешений.
Универсального победителя по доступным данным нет: бенчмарки и спецификации опубликованы не в сопоставимом виде, а часть чисел видна только в сторонних источниках [4][22][32][37].
GPT‑5.5 проще оценивать для production API: OpenAI публикует model ID, окно 1 млн токенов, максимум 128K output, цену $5/$30 за 1 млн токенов и поддерживаемые инструменты [22].
Единого победителя нет: Claude Opus 4.7 выше в SWE bench Pro — 64,3% против 58,6%, а GPT 5.5 заметно сильнее в Terminal Bench 2.0 — 82,7% против 69,4%; при этом режимы модели и тестовые стенды различаются [6...