Если считать только API‑токены, самый дешёвый вариант в этих данных — gpt 5.1 codex mini: $2,25 за 1 млн входных + 1 млн выходных токенов без кэша против $30,00 у Claude Opus 4.7/4.6/4.5.
Выбирайте Codex, если нужен широкий workflow coding agent в экосистеме OpenAI: app, IDE, CLI, web, review, automations, worktrees и интеграции [2].
Если нужен один стартовый инструмент для существующих репозиториев, чтения кода, отладки, рефакторинга и git процессов, Claude Code выглядит более естественным выбором.
Если нужен один основной AI coding agent на каждый день, разумно начать с Claude Code: его официальная документация явно покрывает instructions/memories, common workflows, best practices, расширения, платфор...
Для долгой локальной работы в репозитории, отладки и рефакторинга логичнее начать с Claude Code: Anthropic прямо описывает его как инструмент, который читает codebase, редактирует файлы и запускает команды [...
Claude Code лучше задокументирован для повседневной работы с репозиторием, многофайловых задач и локальных разрешений.
GPT 5.5 выглядит самым сильным выбором по сводному сигналу: Artificial Analysis ставит GPT 5.5 xhigh на 60, GPT 5.5 high на 59, а Claude Opus 4.7 Adaptive Reasoning Max Effort — на 57.[2]
Универсального победителя по доступным данным нет: бенчмарки и спецификации опубликованы не в сопоставимом виде, а часть чисел видна только в сторонних источниках [4][22][32][37].
Единого чемпиона нет: Claude Opus 4.7 лидирует в GPQA Diamond с 94,2% и HLE без инструментов с 46,9%, GPT 5.5 Pro — в HLE с инструментами с 57,2% и BrowseComp с 90,1%, а GPT 5.5 — в Terminal Bench 2.0 с 82,7...
Единого честного рейтинга 1–4 по открытым данным не получается: BenchLM, Vals, GDPval, SWE bench и другие тесты измеряют разные вещи и не дают полного сравнения всех четырёх моделей в одинаковых условиях [8]...
Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%.
Открытые данные не дают честной общей таблицы: GPT 5.5 лидирует в видимом Intelligence Index 60/59, BrowseComp 84,4 % и Terminal Bench 2.0 82,7 %, а Claude Opus 4.7 — в GPQA Diamond 94,2 % и HLE no tools 46,...