Если нужен короткий ответ, он такой: выбирать надо не «лучшую модель вообще», а модель под конкретный тип разработки. В приведённых источниках Claude Opus 4.6 сильнее всего выглядит в задачах, похожих на SWE-Bench Verified: отчёты дают ему примерно 79,2–80,8% [3][
5][
7][
9]. GPT-5.3-Codex — самый заметный кандидат OpenAI для терминальных агентных сценариев: в одном сравнении он указан с 77,3% на Terminal-Bench 2.0, а публичная таблица Terminal-Bench показывает несколько сильных связок с этой моделью [
1][
3]. GPT-5.4, напротив, не выглядит резким скачком именно в кодинге: в одном и том же сравнении он получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex, но уступает ему на Terminal-Bench 2.0 — 75,1% против 77,3% [
3].
Короткий вывод: с чего начать тесты
| Сценарий | Первая модель для проверки | Что говорит база источников | Главное ограничение |
|---|---|---|---|
| Исправление багов в репозиториях в стиле SWE-Bench Verified | Claude Opus 4.6 | В отчётах для Opus 4.6 указаны примерно 79,2–80,8% на SWE-Bench Verified [ | Сравнивайте только с теми результатами, которые относятся к той же версии бенчмарка: SWE-Bench Verified и SWE-Bench Pro Public не одно и то же [ |
| Терминальные агентные workflow | GPT-5.3-Codex, но с проверкой агентной обвязки | В GPT-5.4-ориентированном сравнении GPT-5.3-Codex набирает 77,3% на Terminal-Bench 2.0, выше GPT-5.4 с 75,1% и Claude Opus 4.6 с 65,4% [ | Публичный лидерборд Terminal-Bench ранжирует пары «агент + модель», и Claude Opus 4.6 с ForgeCode там доходит до 79,8% [ |
| Выбор только между моделями OpenAI | GPT-5.4, если нужен самый новый вариант, но без ожидания большого рывка | В одном сравнении GPT-5.4 получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex [ | В том же сравнении GPT-5.4 ниже GPT-5.3-Codex на Terminal-Bench 2.0 [ |
| Системы с большим числом инструментов и MCP | GPT-5.4 стоит тестировать отдельно | Анализ GPT-5.4 утверждает, что tool search снижает расход MCP-токенов на 47%, подгружая определения инструментов по требованию [ | Экономия токенов — не то же самое, что победа в бенчмарке по исправлению багов [ |
Главная ловушка: цифры похожи, но тесты разные
SWE-Bench Verified и SWE-Bench Pro Public нельзя сравнивать напрямую
Самая сильная позиция Claude Opus 4.6 — SWE-Bench Verified. В приведённых материалах для него фигурируют 79,2%, 79,4% и 80,8% на этой версии бенчмарка [3][
5][
6][
7][
9]. Это хороший сигнал для задач, где модель должна разбираться в реальном репозитории, находить причину бага и предлагать рабочее исправление.
С GPT-5.3-Codex картина сложнее. Один анализ GPT-5.4 указывает для GPT-5.3-Codex 56,8% на SWE-Bench Pro, а два сравнения Opus-vs-Codex называют 78,2% на SWE-Bench Pro Public [3][
6][
7]. Это не повод усреднять результаты. Это предупреждение: разные варианты SWE-Bench нельзя превращать в одну универсальную шкалу. Несколько источников прямо подчёркивают, что SWE-Bench Verified и SWE-Bench Pro Public не являются напрямую взаимозаменяемыми тестами [
6][
7][
10].
У GPT-5.4 самый чистый OpenAI-on-OpenAI плюс в этих данных небольшой: 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex в одном и том же анализе [3]. Ещё один обзор также упоминает 57,7% GPT-5.4 на SWE-Bench Pro Public и отдельно предупреждает, что сравнение Claude и GPT по разным вариантам бенчмарка не является «яблоки к яблокам» [
10].
Terminal-Bench проверяет не только модель, но и агента вокруг неё
Terminal-Bench 2.0 особенно легко прочитать неправильно. Публичный лидерборд показывает не изолированные «чистые» модели, а пары «агент + модель» [1]. Поэтому одна и та же модель может выглядеть по-разному в зависимости от того, какая система запускает команды, читает вывод терминала, планирует шаги и исправляет ошибки.
В публичной таблице GPT-5.3-Codex указан с 78,4% в связке с SageAgent, 77,3% с Droid и 75,1% с Simple Codex [1]. Claude Opus 4.6 в той же таблице получает 79,8% с ForgeCode, 75,3% с Capy и 62,9% с Terminus 2 [
1]. Разброс достаточно большой, чтобы поменять видимого победителя.
Именно поэтому вывод по Terminal-Bench должен быть аккуратным. GPT-5.4-ориентированное сравнение ставит GPT-5.3-Codex выше Claude Opus 4.6 на Terminal-Bench 2.0 — 77,3% против 65,4% [3]. Но публичный лидерборд показывает связку ForgeCode + Claude Opus 4.6 с 79,8%, то есть выше записи SageAgent + GPT-5.3-Codex с 78,4% [
1]. Практический вывод: если вы оцениваете терминального coding-агента, фиксируйте не только модель, но и агентную среду.
По моделям
Claude Opus 4.6: лучший старт для Verified-style bug fixing
Если ваш главный ориентир — SWE-Bench Verified, Claude Opus 4.6 выглядит самым убедительным стартовым вариантом. Его результаты в источниках группируются около 79–81%: 79,2% в анализе GPT-5.4, 79,4% в сравнениях Opus-vs-Codex и 80,8% в других обзорах бенчмарков [3][
5][
6][
7][
9].
Но это не доказывает, что Opus 4.6 выигрывает любой coding-сценарий. В Terminal-Bench картина смешанная: сравнительные отчёты приводят 65,4%, тогда как публичный лидерборд показывает 79,8% с ForgeCode и 62,9% с Terminus 2 [1][
3][
7][
9]. Поэтому Opus 4.6 — сильный первый кандидат для исправления багов в репозиториях, но не универсальный победитель на все случаи.
GPT-5.3-Codex: сильная ставка для терминальных агентов OpenAI
GPT-5.3-Codex выглядит особенно убедительно там, где рабочий процесс похож на агентную работу в терминале: запуск команд, анализ логов, правка файлов, повторные проверки. В сравнительных материалах он указан с 77,3% на Terminal-Bench 2.0, а публичный лидерборд даёт ему 78,4% с SageAgent, 77,3% с Droid и 75,1% с Simple Codex [1][
3][
7][
9].
С SWE-Bench для GPT-5.3-Codex нужна осторожность. Одни материалы называют 78,2% на SWE-Bench Pro Public, другие — 56,8% на SWE-Bench Pro [3][
6][
7][
9]. Поскольку сами источники предупреждают, что эти варианты нельзя напрямую подменять друг другом, оценивать GPT-5.3-Codex стоит в той же версии SWE-Bench и в той же методике, которую вы собираетесь использовать на практике [
6][
7][
10].
GPT-5.4: не революция в кодинге, но интересная история с инструментами
В предоставленном наборе данных GPT-5.4 не выглядит как модель, которая резко обгоняет GPT-5.3-Codex именно по coding-бенчмаркам. В основном сравнении он чуть выше на SWE-Bench Pro — 57,7% против 56,8%, — но ниже на Terminal-Bench 2.0: 75,1% против 77,3% [3].
Более заметная особенность GPT-5.4 — работа с инструментами. Анализ GPT-5.4 говорит, что tool search снижает расход MCP-токенов на 47%, потому что определения инструментов подгружаются по требованию, а не помещаются в контекст все сразу [3]. Для систем, где модель часто вызывает внешние инструменты, это может быть важнее небольшой разницы в одном бенчмарке. Но такую выгоду надо измерять отдельно: экономия контекста и точность исправления багов — разные метрики [
3].
Как сравнить модели и не обмануть себя
- Сначала выберите вариант бенчмарка. SWE-Bench Verified, SWE-Bench Pro и SWE-Bench Pro Public не стоит сводить в одну таблицу как один тест [
6][
7][
10].
- Для терминальных задач держите неизменной агентную обвязку. Публичный Terminal-Bench 2.0 показывает, что результат одной и той же модели заметно меняется в зависимости от пары «агент + модель» [
1].
- Разделяйте точность кодинга и эффективность инструментов. Заявленное снижение MCP-токенов на 47% у GPT-5.4 полезно для tool-heavy систем, но это не то же самое, что победа в SWE-Bench или Terminal-Bench [
3].
- Считайте смешанные рейтинги ориентиром, а не окончательным вердиктом. В этих источниках победитель меняется в зависимости от бенчмарка, варианта теста и агентной среды [
1][
3][
6][
7][
10].
Итог
Для исправления багов в стиле SWE-Bench Verified первым кандидатом выглядит Claude Opus 4.6. Для терминальных агентных workflow обязательно включайте в сравнение GPT-5.3-Codex. GPT-5.4 стоит тестировать, если вам нужен самый свежий вариант OpenAI или если ваша система сильно зависит от инструментов и может выиграть от более экономной работы с MCP [1][
3][
5][
7][
9].
Самый безопасный общий вывод: ни одна из трёх моделей не доминирует во всех coding-сценариях. Победитель меняется вместе с вариантом бенчмарка, агентной обвязкой и реальной задачей, которую вы собираетесь автоматизировать [1][
6][
7][
10].




