Самая сильная позиция Claude Opus 4.6 — SWE-Bench Verified. В приведённых материалах для него фигурируют 79,2%, 79,4% и 80,8% на этой версии бенчмарка . Это хороший сигнал для задач, где модель должна разбираться в реальном репозитории, находить причину бага и предлагать рабочее исправление.
С GPT-5.3-Codex картина сложнее. Один анализ GPT-5.4 указывает для GPT-5.3-Codex 56,8% на SWE-Bench Pro, а два сравнения Opus-vs-Codex называют 78,2% на SWE-Bench Pro Public . Это не повод усреднять результаты. Это предупреждение: разные варианты SWE-Bench нельзя превращать в одну универсальную шкалу. Несколько источников прямо подчёркивают, что SWE-Bench Verified и SWE-Bench Pro Public не являются напрямую взаимозаменяемыми тестами
.
У GPT-5.4 самый чистый OpenAI-on-OpenAI плюс в этих данных небольшой: 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex в одном и том же анализе . Ещё один обзор также упоминает 57,7% GPT-5.4 на SWE-Bench Pro Public и отдельно предупреждает, что сравнение Claude и GPT по разным вариантам бенчмарка не является «яблоки к яблокам»
.
Terminal-Bench 2.0 особенно легко прочитать неправильно. Публичный лидерборд показывает не изолированные «чистые» модели, а пары «агент + модель» . Поэтому одна и та же модель может выглядеть по-разному в зависимости от того, какая система запускает команды, читает вывод терминала, планирует шаги и исправляет ошибки.
В публичной таблице GPT-5.3-Codex указан с 78,4% в связке с SageAgent, 77,3% с Droid и 75,1% с Simple Codex . Claude Opus 4.6 в той же таблице получает 79,8% с ForgeCode, 75,3% с Capy и 62,9% с Terminus 2
. Разброс достаточно большой, чтобы поменять видимого победителя.
Именно поэтому вывод по Terminal-Bench должен быть аккуратным. GPT-5.4-ориентированное сравнение ставит GPT-5.3-Codex выше Claude Opus 4.6 на Terminal-Bench 2.0 — 77,3% против 65,4% . Но публичный лидерборд показывает связку ForgeCode + Claude Opus 4.6 с 79,8%, то есть выше записи SageAgent + GPT-5.3-Codex с 78,4%
. Практический вывод: если вы оцениваете терминального coding-агента, фиксируйте не только модель, но и агентную среду.
Если ваш главный ориентир — SWE-Bench Verified, Claude Opus 4.6 выглядит самым убедительным стартовым вариантом. Его результаты в источниках группируются около 79–81%: 79,2% в анализе GPT-5.4, 79,4% в сравнениях Opus-vs-Codex и 80,8% в других обзорах бенчмарков .
Но это не доказывает, что Opus 4.6 выигрывает любой coding-сценарий. В Terminal-Bench картина смешанная: сравнительные отчёты приводят 65,4%, тогда как публичный лидерборд показывает 79,8% с ForgeCode и 62,9% с Terminus 2 . Поэтому Opus 4.6 — сильный первый кандидат для исправления багов в репозиториях, но не универсальный победитель на все случаи.
GPT-5.3-Codex выглядит особенно убедительно там, где рабочий процесс похож на агентную работу в терминале: запуск команд, анализ логов, правка файлов, повторные проверки. В сравнительных материалах он указан с 77,3% на Terminal-Bench 2.0, а публичный лидерборд даёт ему 78,4% с SageAgent, 77,3% с Droid и 75,1% с Simple Codex .
С SWE-Bench для GPT-5.3-Codex нужна осторожность. Одни материалы называют 78,2% на SWE-Bench Pro Public, другие — 56,8% на SWE-Bench Pro . Поскольку сами источники предупреждают, что эти варианты нельзя напрямую подменять друг другом, оценивать GPT-5.3-Codex стоит в той же версии SWE-Bench и в той же методике, которую вы собираетесь использовать на практике
.
В предоставленном наборе данных GPT-5.4 не выглядит как модель, которая резко обгоняет GPT-5.3-Codex именно по coding-бенчмаркам. В основном сравнении он чуть выше на SWE-Bench Pro — 57,7% против 56,8%, — но ниже на Terminal-Bench 2.0: 75,1% против 77,3% .
Более заметная особенность GPT-5.4 — работа с инструментами. Анализ GPT-5.4 говорит, что tool search снижает расход MCP-токенов на 47%, потому что определения инструментов подгружаются по требованию, а не помещаются в контекст все сразу . Для систем, где модель часто вызывает внешние инструменты, это может быть важнее небольшой разницы в одном бенчмарке. Но такую выгоду надо измерять отдельно: экономия контекста и точность исправления багов — разные метрики
.
Для исправления багов в стиле SWE-Bench Verified первым кандидатом выглядит Claude Opus 4.6. Для терминальных агентных workflow обязательно включайте в сравнение GPT-5.3-Codex. GPT-5.4 стоит тестировать, если вам нужен самый свежий вариант OpenAI или если ваша система сильно зависит от инструментов и может выиграть от более экономной работы с MCP .
Comments
0 comments