studioglobal
Популярное в «Открыть»
ОтветыОпубликовано7 источники

GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест... Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальны...

4.5K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

Если нужен короткий ответ, он такой: выбирать надо не «лучшую модель вообще», а модель под конкретный тип разработки. В приведённых источниках Claude Opus 4.6 сильнее всего выглядит в задачах, похожих на SWE-Bench Verified: отчёты дают ему примерно 79,2–80,8% [3][5][7][9]. GPT-5.3-Codex — самый заметный кандидат OpenAI для терминальных агентных сценариев: в одном сравнении он указан с 77,3% на Terminal-Bench 2.0, а публичная таблица Terminal-Bench показывает несколько сильных связок с этой моделью [1][3]. GPT-5.4, напротив, не выглядит резким скачком именно в кодинге: в одном и том же сравнении он получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex, но уступает ему на Terminal-Bench 2.0 — 75,1% против 77,3% [3].

Короткий вывод: с чего начать тесты

СценарийПервая модель для проверкиЧто говорит база источниковГлавное ограничение
Исправление багов в репозиториях в стиле SWE-Bench VerifiedClaude Opus 4.6В отчётах для Opus 4.6 указаны примерно 79,2–80,8% на SWE-Bench Verified [3][5][7][9].Сравнивайте только с теми результатами, которые относятся к той же версии бенчмарка: SWE-Bench Verified и SWE-Bench Pro Public не одно и то же [6][7][10].
Терминальные агентные workflowGPT-5.3-Codex, но с проверкой агентной обвязкиВ GPT-5.4-ориентированном сравнении GPT-5.3-Codex набирает 77,3% на Terminal-Bench 2.0, выше GPT-5.4 с 75,1% и Claude Opus 4.6 с 65,4% [3].Публичный лидерборд Terminal-Bench ранжирует пары «агент + модель», и Claude Opus 4.6 с ForgeCode там доходит до 79,8% [1].
Выбор только между моделями OpenAIGPT-5.4, если нужен самый новый вариант, но без ожидания большого рывкаВ одном сравнении GPT-5.4 получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex [3].В том же сравнении GPT-5.4 ниже GPT-5.3-Codex на Terminal-Bench 2.0 [3].
Системы с большим числом инструментов и MCPGPT-5.4 стоит тестировать отдельноАнализ GPT-5.4 утверждает, что tool search снижает расход MCP-токенов на 47%, подгружая определения инструментов по требованию [3].Экономия токенов — не то же самое, что победа в бенчмарке по исправлению багов [3].

Главная ловушка: цифры похожи, но тесты разные

SWE-Bench Verified и SWE-Bench Pro Public нельзя сравнивать напрямую

Самая сильная позиция Claude Opus 4.6 — SWE-Bench Verified. В приведённых материалах для него фигурируют 79,2%, 79,4% и 80,8% на этой версии бенчмарка [3][5][6][7][9]. Это хороший сигнал для задач, где модель должна разбираться в реальном репозитории, находить причину бага и предлагать рабочее исправление.

С GPT-5.3-Codex картина сложнее. Один анализ GPT-5.4 указывает для GPT-5.3-Codex 56,8% на SWE-Bench Pro, а два сравнения Opus-vs-Codex называют 78,2% на SWE-Bench Pro Public [3][6][7]. Это не повод усреднять результаты. Это предупреждение: разные варианты SWE-Bench нельзя превращать в одну универсальную шкалу. Несколько источников прямо подчёркивают, что SWE-Bench Verified и SWE-Bench Pro Public не являются напрямую взаимозаменяемыми тестами [6][7][10].

У GPT-5.4 самый чистый OpenAI-on-OpenAI плюс в этих данных небольшой: 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex в одном и том же анализе [3]. Ещё один обзор также упоминает 57,7% GPT-5.4 на SWE-Bench Pro Public и отдельно предупреждает, что сравнение Claude и GPT по разным вариантам бенчмарка не является «яблоки к яблокам» [10].

Terminal-Bench проверяет не только модель, но и агента вокруг неё

Terminal-Bench 2.0 особенно легко прочитать неправильно. Публичный лидерборд показывает не изолированные «чистые» модели, а пары «агент + модель» [1]. Поэтому одна и та же модель может выглядеть по-разному в зависимости от того, какая система запускает команды, читает вывод терминала, планирует шаги и исправляет ошибки.

В публичной таблице GPT-5.3-Codex указан с 78,4% в связке с SageAgent, 77,3% с Droid и 75,1% с Simple Codex [1]. Claude Opus 4.6 в той же таблице получает 79,8% с ForgeCode, 75,3% с Capy и 62,9% с Terminus 2 [1]. Разброс достаточно большой, чтобы поменять видимого победителя.

Именно поэтому вывод по Terminal-Bench должен быть аккуратным. GPT-5.4-ориентированное сравнение ставит GPT-5.3-Codex выше Claude Opus 4.6 на Terminal-Bench 2.0 — 77,3% против 65,4% [3]. Но публичный лидерборд показывает связку ForgeCode + Claude Opus 4.6 с 79,8%, то есть выше записи SageAgent + GPT-5.3-Codex с 78,4% [1]. Практический вывод: если вы оцениваете терминального coding-агента, фиксируйте не только модель, но и агентную среду.

По моделям

Claude Opus 4.6: лучший старт для Verified-style bug fixing

Если ваш главный ориентир — SWE-Bench Verified, Claude Opus 4.6 выглядит самым убедительным стартовым вариантом. Его результаты в источниках группируются около 79–81%: 79,2% в анализе GPT-5.4, 79,4% в сравнениях Opus-vs-Codex и 80,8% в других обзорах бенчмарков [3][5][6][7][9].

Но это не доказывает, что Opus 4.6 выигрывает любой coding-сценарий. В Terminal-Bench картина смешанная: сравнительные отчёты приводят 65,4%, тогда как публичный лидерборд показывает 79,8% с ForgeCode и 62,9% с Terminus 2 [1][3][7][9]. Поэтому Opus 4.6 — сильный первый кандидат для исправления багов в репозиториях, но не универсальный победитель на все случаи.

GPT-5.3-Codex: сильная ставка для терминальных агентов OpenAI

GPT-5.3-Codex выглядит особенно убедительно там, где рабочий процесс похож на агентную работу в терминале: запуск команд, анализ логов, правка файлов, повторные проверки. В сравнительных материалах он указан с 77,3% на Terminal-Bench 2.0, а публичный лидерборд даёт ему 78,4% с SageAgent, 77,3% с Droid и 75,1% с Simple Codex [1][3][7][9].

С SWE-Bench для GPT-5.3-Codex нужна осторожность. Одни материалы называют 78,2% на SWE-Bench Pro Public, другие — 56,8% на SWE-Bench Pro [3][6][7][9]. Поскольку сами источники предупреждают, что эти варианты нельзя напрямую подменять друг другом, оценивать GPT-5.3-Codex стоит в той же версии SWE-Bench и в той же методике, которую вы собираетесь использовать на практике [6][7][10].

GPT-5.4: не революция в кодинге, но интересная история с инструментами

В предоставленном наборе данных GPT-5.4 не выглядит как модель, которая резко обгоняет GPT-5.3-Codex именно по coding-бенчмаркам. В основном сравнении он чуть выше на SWE-Bench Pro — 57,7% против 56,8%, — но ниже на Terminal-Bench 2.0: 75,1% против 77,3% [3].

Более заметная особенность GPT-5.4 — работа с инструментами. Анализ GPT-5.4 говорит, что tool search снижает расход MCP-токенов на 47%, потому что определения инструментов подгружаются по требованию, а не помещаются в контекст все сразу [3]. Для систем, где модель часто вызывает внешние инструменты, это может быть важнее небольшой разницы в одном бенчмарке. Но такую выгоду надо измерять отдельно: экономия контекста и точность исправления багов — разные метрики [3].

Как сравнить модели и не обмануть себя

  1. Сначала выберите вариант бенчмарка. SWE-Bench Verified, SWE-Bench Pro и SWE-Bench Pro Public не стоит сводить в одну таблицу как один тест [6][7][10].
  2. Для терминальных задач держите неизменной агентную обвязку. Публичный Terminal-Bench 2.0 показывает, что результат одной и той же модели заметно меняется в зависимости от пары «агент + модель» [1].
  3. Разделяйте точность кодинга и эффективность инструментов. Заявленное снижение MCP-токенов на 47% у GPT-5.4 полезно для tool-heavy систем, но это не то же самое, что победа в SWE-Bench или Terminal-Bench [3].
  4. Считайте смешанные рейтинги ориентиром, а не окончательным вердиктом. В этих источниках победитель меняется в зависимости от бенчмарка, варианта теста и агентной среды [1][3][6][7][10].

Итог

Для исправления багов в стиле SWE-Bench Verified первым кандидатом выглядит Claude Opus 4.6. Для терминальных агентных workflow обязательно включайте в сравнение GPT-5.3-Codex. GPT-5.4 стоит тестировать, если вам нужен самый свежий вариант OpenAI или если ваша система сильно зависит от инструментов и может выиграть от более экономной работы с MCP [1][3][5][7][9].

Самый безопасный общий вывод: ни одна из трёх моделей не доминирует во всех coding-сценариях. Победитель меняется вместе с вариантом бенчмарка, агентной обвязкой и реальной задачей, которую вы собираетесь автоматизировать [1][6][7][10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест...
  • Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальных агентных workflow — GPT 5.3 Codex, но обязательно с той же агентной обвязкой; для tool heavy MCP систем стоит отдельно...
  • Главная методологическая ловушка: SWE Bench Verified, SWE Bench Pro и SWE Bench Pro Public нельзя складывать в одну таблицу как один и тот же тест, а Terminal Bench 2.0 зависит не только от модели, но и от агента вокр...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста»?

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест...

Какие ключевые моменты необходимо проверить в первую очередь?

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест... Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальных агентных workflow — GPT 5.3 Codex, но обязательно с той же агентной обвязкой; для tool heavy MCP систем стоит отдельно...

Что мне делать дальше на практике?

Главная методологическая ловушка: SWE Bench Verified, SWE Bench Pro и SWE Bench Pro Public нельзя складывать в одну таблицу как один и тот же тест, а Terminal Bench 2.0 зависит не только от модели, но и от агента вокр...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Источники

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...