ОтветыОпубликовано5 мая 2026Last edited 6 мая 20267 источники

GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест... Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальны...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

4.5K0

Abstract comparison of AI coding models on a benchmark leaderboard — GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic
openai.com

Если нужен короткий ответ, он такой: выбирать надо не «лучшую модель вообще», а модель под конкретный тип разработки. В приведённых источниках Claude Opus 4.6 сильнее всего выглядит в задачах, похожих на SWE-Bench Verified: отчёты дают ему примерно 79,2–80,8% ^[3]^[5]^[7]^[9]. GPT-5.3-Codex — самый заметный кандидат OpenAI для терминальных агентных сценариев: в одном сравнении он указан с 77,3% на Terminal-Bench 2.0, а публичная таблица Terminal-Bench показывает несколько сильных связок с этой моделью ^[1]^[3]. GPT-5.4, напротив, не выглядит резким скачком именно в кодинге: в одном и том же сравнении он получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex, но уступает ему на Terminal-Bench 2.0 — 75,1% против 77,3% ^[3].

Короткий вывод: с чего начать тесты

Сценарий	Первая модель для проверки	Что говорит база источников	Главное ограничение
Исправление багов в репозиториях в стиле SWE-Bench Verified	Claude Opus 4.6	В отчётах для Opus 4.6 указаны примерно 79,2–80,8% на SWE-Bench Verified ^[3]^[5]^[7]^[9].	Сравнивайте только с теми результатами, которые относятся к той же версии бенчмарка: SWE-Bench Verified и SWE-Bench Pro Public не одно и то же ^[6]^[7]^[10].
Терминальные агентные workflow	GPT-5.3-Codex, но с проверкой агентной обвязки	В GPT-5.4-ориентированном сравнении GPT-5.3-Codex набирает 77,3% на Terminal-Bench 2.0, выше GPT-5.4 с 75,1% и Claude Opus 4.6 с 65,4% ^[3].	Публичный лидерборд Terminal-Bench ранжирует пары «агент + модель», и Claude Opus 4.6 с ForgeCode там доходит до 79,8% ^[1].
Выбор только между моделями OpenAI	GPT-5.4, если нужен самый новый вариант, но без ожидания большого рывка	В одном сравнении GPT-5.4 получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex ^[3].	В том же сравнении GPT-5.4 ниже GPT-5.3-Codex на Terminal-Bench 2.0 ^[3].
Системы с большим числом инструментов и MCP	GPT-5.4 стоит тестировать отдельно	Анализ GPT-5.4 утверждает, что tool search снижает расход MCP-токенов на 47%, подгружая определения инструментов по требованию ^[3].	Экономия токенов — не то же самое, что победа в бенчмарке по исправлению багов ^[3].

Главная ловушка: цифры похожи, но тесты разные

SWE-Bench Verified и SWE-Bench Pro Public нельзя сравнивать напрямую

Самая сильная позиция Claude Opus 4.6 — SWE-Bench Verified. В приведённых материалах для него фигурируют 79,2%, 79,4% и 80,8% на этой версии бенчмарка ^[3]^[5]^[6]^[7]^[9]. Это хороший сигнал для задач, где модель должна разбираться в реальном репозитории, находить причину бага и предлагать рабочее исправление.

С GPT-5.3-Codex картина сложнее. Один анализ GPT-5.4 указывает для GPT-5.3-Codex 56,8% на SWE-Bench Pro, а два сравнения Opus-vs-Codex называют 78,2% на SWE-Bench Pro Public ^[3]^[6]^[7]. Это не повод усреднять результаты. Это предупреждение: разные варианты SWE-Bench нельзя превращать в одну универсальную шкалу. Несколько источников прямо подчёркивают, что SWE-Bench Verified и SWE-Bench Pro Public не являются напрямую взаимозаменяемыми тестами ^[6]^[7]^[10].

У GPT-5.4 самый чистый OpenAI-on-OpenAI плюс в этих данных небольшой: 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex в одном и том же анализе ^[3]. Ещё один обзор также упоминает 57,7% GPT-5.4 на SWE-Bench Pro Public и отдельно предупреждает, что сравнение Claude и GPT по разным вариантам бенчмарка не является «яблоки к яблокам» ^[10].

Terminal-Bench проверяет не только модель, но и агента вокруг неё

Terminal-Bench 2.0 особенно легко прочитать неправильно. Публичный лидерборд показывает не изолированные «чистые» модели, а пары «агент + модель» ^[1]. Поэтому одна и та же модель может выглядеть по-разному в зависимости от того, какая система запускает команды, читает вывод терминала, планирует шаги и исправляет ошибки.

В публичной таблице GPT-5.3-Codex указан с 78,4% в связке с SageAgent, 77,3% с Droid и 75,1% с Simple Codex ^[1]. Claude Opus 4.6 в той же таблице получает 79,8% с ForgeCode, 75,3% с Capy и 62,9% с Terminus 2 ^[1]. Разброс достаточно большой, чтобы поменять видимого победителя.

Именно поэтому вывод по Terminal-Bench должен быть аккуратным. GPT-5.4-ориентированное сравнение ставит GPT-5.3-Codex выше Claude Opus 4.6 на Terminal-Bench 2.0 — 77,3% против 65,4% ^[3]. Но публичный лидерборд показывает связку ForgeCode + Claude Opus 4.6 с 79,8%, то есть выше записи SageAgent + GPT-5.3-Codex с 78,4% ^[1]. Практический вывод: если вы оцениваете терминального coding-агента, фиксируйте не только модель, но и агентную среду.

По моделям

Claude Opus 4.6: лучший старт для Verified-style bug fixing

Если ваш главный ориентир — SWE-Bench Verified, Claude Opus 4.6 выглядит самым убедительным стартовым вариантом. Его результаты в источниках группируются около 79–81%: 79,2% в анализе GPT-5.4, 79,4% в сравнениях Opus-vs-Codex и 80,8% в других обзорах бенчмарков ^[3]^[5]^[6]^[7]^[9].

Но это не доказывает, что Opus 4.6 выигрывает любой coding-сценарий. В Terminal-Bench картина смешанная: сравнительные отчёты приводят 65,4%, тогда как публичный лидерборд показывает 79,8% с ForgeCode и 62,9% с Terminus 2 ^[1]^[3]^[7]^[9]. Поэтому Opus 4.6 — сильный первый кандидат для исправления багов в репозиториях, но не универсальный победитель на все случаи.

GPT-5.3-Codex: сильная ставка для терминальных агентов OpenAI

GPT-5.3-Codex выглядит особенно убедительно там, где рабочий процесс похож на агентную работу в терминале: запуск команд, анализ логов, правка файлов, повторные проверки. В сравнительных материалах он указан с 77,3% на Terminal-Bench 2.0, а публичный лидерборд даёт ему 78,4% с SageAgent, 77,3% с Droid и 75,1% с Simple Codex ^[1]^[3]^[7]^[9].

С SWE-Bench для GPT-5.3-Codex нужна осторожность. Одни материалы называют 78,2% на SWE-Bench Pro Public, другие — 56,8% на SWE-Bench Pro ^[3]^[6]^[7]^[9]. Поскольку сами источники предупреждают, что эти варианты нельзя напрямую подменять друг другом, оценивать GPT-5.3-Codex стоит в той же версии SWE-Bench и в той же методике, которую вы собираетесь использовать на практике ^[6]^[7]^[10].

GPT-5.4: не революция в кодинге, но интересная история с инструментами

В предоставленном наборе данных GPT-5.4 не выглядит как модель, которая резко обгоняет GPT-5.3-Codex именно по coding-бенчмаркам. В основном сравнении он чуть выше на SWE-Bench Pro — 57,7% против 56,8%, — но ниже на Terminal-Bench 2.0: 75,1% против 77,3% ^[3].

Более заметная особенность GPT-5.4 — работа с инструментами. Анализ GPT-5.4 говорит, что tool search снижает расход MCP-токенов на 47%, потому что определения инструментов подгружаются по требованию, а не помещаются в контекст все сразу ^[3]. Для систем, где модель часто вызывает внешние инструменты, это может быть важнее небольшой разницы в одном бенчмарке. Но такую выгоду надо измерять отдельно: экономия контекста и точность исправления багов — разные метрики ^[3].

Как сравнить модели и не обмануть себя

Сначала выберите вариант бенчмарка. SWE-Bench Verified, SWE-Bench Pro и SWE-Bench Pro Public не стоит сводить в одну таблицу как один тест ^[6]^[7]^[10].
Для терминальных задач держите неизменной агентную обвязку. Публичный Terminal-Bench 2.0 показывает, что результат одной и той же модели заметно меняется в зависимости от пары «агент + модель» ^[1].
Разделяйте точность кодинга и эффективность инструментов. Заявленное снижение MCP-токенов на 47% у GPT-5.4 полезно для tool-heavy систем, но это не то же самое, что победа в SWE-Bench или Terminal-Bench ^[3].
Считайте смешанные рейтинги ориентиром, а не окончательным вердиктом. В этих источниках победитель меняется в зависимости от бенчмарка, варианта теста и агентной среды ^[1]^[3]^[6]^[7]^[10].

Итог

Для исправления багов в стиле SWE-Bench Verified первым кандидатом выглядит Claude Opus 4.6. Для терминальных агентных workflow обязательно включайте в сравнение GPT-5.3-Codex. GPT-5.4 стоит тестировать, если вам нужен самый свежий вариант OpenAI или если ваша система сильно зависит от инструментов и может выиграть от более экономной работы с MCP ^[1]^[3]^[5]^[7]^[9].

Самый безопасный общий вывод: ни одна из трёх моделей не доминирует во всех coding-сценариях. Победитель меняется вместе с вариантом бенчмарка, агентной обвязкой и реальной задачей, которую вы собираетесь автоматизировать ^[1]^[6]^[7]^[10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест...
Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальных агентных workflow — GPT 5.3 Codex, но обязательно с той же агентной обвязкой; для tool heavy MCP систем стоит отдельно...
Главная методологическая ловушка: SWE Bench Verified, SWE Bench Pro и SWE Bench Pro Public нельзя складывать в одну таблицу как один и тот же тест, а Terminal Bench 2.0 зависит не только от модели, но и от агента вокр...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Главная методологическая ловушка: SWE Bench Verified, SWE Bench Pro и SWE Bench Pro Public нельзя складывать в одну таблицу как один и тот же тест, а Terminal Bench 2.0 зависит не только от модели, но и от агента вокр...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ

Claude Security: что умеет бета-сканер кода от Anthropic

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI

Grok 4.3 API: как 1M context и цена $1,25/$2,50 меняют конкуренцию моделей

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta будет проверять возраст с помощью ИИ: что изменится в Instagram и Facebook

Meta усиливает ИИ-проверку возраста: новые правила для подростков в ЕС, США и Бразилии

I have set up some Touchup settings in Zoom Workplace. Do these settings apply when I join a Zoom meeting on the browser without having logg

Сработает ли ретушь Zoom в браузере без входа в аккаунт?

Применяются ли настройки Touch Up Zoom при входе в встречу через браузер?

Источники

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

Популярное в «Открыть»

ОтветыОпубликовано5 мая 2026Last edited 6 мая 20267 источники

GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

4.5K0

Короткий вывод: с чего начать тесты

Сценарий	Первая модель для проверки	Что говорит база источников	Главное ограничение
Исправление багов в репозиториях в стиле SWE-Bench Verified	Claude Opus 4.6	В отчётах для Opus 4.6 указаны примерно 79,2–80,8% на SWE-Bench Verified ^[3]^[5]^[7]^[9].	Сравнивайте только с теми результатами, которые относятся к той же версии бенчмарка: SWE-Bench Verified и SWE-Bench Pro Public не одно и то же ^[6]^[7]^[10].
Терминальные агентные workflow	GPT-5.3-Codex, но с проверкой агентной обвязки	В GPT-5.4-ориентированном сравнении GPT-5.3-Codex набирает 77,3% на Terminal-Bench 2.0, выше GPT-5.4 с 75,1% и Claude Opus 4.6 с 65,4% ^[3].	Публичный лидерборд Terminal-Bench ранжирует пары «агент + модель», и Claude Opus 4.6 с ForgeCode там доходит до 79,8% ^[1].
Выбор только между моделями OpenAI	GPT-5.4, если нужен самый новый вариант, но без ожидания большого рывка	В одном сравнении GPT-5.4 получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex ^[3].	В том же сравнении GPT-5.4 ниже GPT-5.3-Codex на Terminal-Bench 2.0 ^[3].
Системы с большим числом инструментов и MCP	GPT-5.4 стоит тестировать отдельно	Анализ GPT-5.4 утверждает, что tool search снижает расход MCP-токенов на 47%, подгружая определения инструментов по требованию ^[3].	Экономия токенов — не то же самое, что победа в бенчмарке по исправлению багов ^[3].

Главная ловушка: цифры похожи, но тесты разные

SWE-Bench Verified и SWE-Bench Pro Public нельзя сравнивать напрямую

Terminal-Bench проверяет не только модель, но и агента вокруг неё

По моделям

Claude Opus 4.6: лучший старт для Verified-style bug fixing

GPT-5.3-Codex: сильная ставка для терминальных агентов OpenAI

GPT-5.4: не революция в кодинге, но интересная история с инструментами

Как сравнить модели и не обмануть себя

Сначала выберите вариант бенчмарка. SWE-Bench Verified, SWE-Bench Pro и SWE-Bench Pro Public не стоит сводить в одну таблицу как один тест ^[6]^[7]^[10].
Для терминальных задач держите неизменной агентную обвязку. Публичный Terminal-Bench 2.0 показывает, что результат одной и той же модели заметно меняется в зависимости от пары «агент + модель» ^[1].
Разделяйте точность кодинга и эффективность инструментов. Заявленное снижение MCP-токенов на 47% у GPT-5.4 полезно для tool-heavy систем, но это не то же самое, что победа в SWE-Bench или Terminal-Bench ^[3].
Считайте смешанные рейтинги ориентиром, а не окончательным вердиктом. В этих источниках победитель меняется в зависимости от бенчмарка, варианта теста и агентной среды ^[1]^[3]^[6]^[7]^[10].

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест...
Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальных агентных workflow — GPT 5.3 Codex, но обязательно с той же агентной обвязкой; для tool heavy MCP систем стоит отдельно...
Главная методологическая ловушка: SWE Bench Verified, SWE Bench Pro и SWE Bench Pro Public нельзя складывать в одну таблицу как один и тот же тест, а Terminal Bench 2.0 зависит не только от модели, но и от агента вокр...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Источники

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

Популярное в «Открыть»

ОтветыОпубликовано5 мая 2026Last edited 6 мая 20267 источники

GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

4.5K0

Короткий вывод: с чего начать тесты

Сценарий	Первая модель для проверки	Что говорит база источников	Главное ограничение
Исправление багов в репозиториях в стиле SWE-Bench Verified	Claude Opus 4.6	В отчётах для Opus 4.6 указаны примерно 79,2–80,8% на SWE-Bench Verified ^[3]^[5]^[7]^[9].	Сравнивайте только с теми результатами, которые относятся к той же версии бенчмарка: SWE-Bench Verified и SWE-Bench Pro Public не одно и то же ^[6]^[7]^[10].
Терминальные агентные workflow	GPT-5.3-Codex, но с проверкой агентной обвязки	В GPT-5.4-ориентированном сравнении GPT-5.3-Codex набирает 77,3% на Terminal-Bench 2.0, выше GPT-5.4 с 75,1% и Claude Opus 4.6 с 65,4% ^[3].	Публичный лидерборд Terminal-Bench ранжирует пары «агент + модель», и Claude Opus 4.6 с ForgeCode там доходит до 79,8% ^[1].
Выбор только между моделями OpenAI	GPT-5.4, если нужен самый новый вариант, но без ожидания большого рывка	В одном сравнении GPT-5.4 получает 57,7% на SWE-Bench Pro против 56,8% у GPT-5.3-Codex ^[3].	В том же сравнении GPT-5.4 ниже GPT-5.3-Codex на Terminal-Bench 2.0 ^[3].
Системы с большим числом инструментов и MCP	GPT-5.4 стоит тестировать отдельно	Анализ GPT-5.4 утверждает, что tool search снижает расход MCP-токенов на 47%, подгружая определения инструментов по требованию ^[3].	Экономия токенов — не то же самое, что победа в бенчмарке по исправлению багов ^[3].

Главная ловушка: цифры похожи, но тесты разные

SWE-Bench Verified и SWE-Bench Pro Public нельзя сравнивать напрямую

Terminal-Bench проверяет не только модель, но и агента вокруг неё

По моделям

Claude Opus 4.6: лучший старт для Verified-style bug fixing

GPT-5.3-Codex: сильная ставка для терминальных агентов OpenAI

GPT-5.4: не революция в кодинге, но интересная история с инструментами

Как сравнить модели и не обмануть себя

Сначала выберите вариант бенчмарка. SWE-Bench Verified, SWE-Bench Pro и SWE-Bench Pro Public не стоит сводить в одну таблицу как один тест ^[6]^[7]^[10].
Для терминальных задач держите неизменной агентную обвязку. Публичный Terminal-Bench 2.0 показывает, что результат одной и той же модели заметно меняется в зависимости от пары «агент + модель» ^[1].
Разделяйте точность кодинга и эффективность инструментов. Заявленное снижение MCP-токенов на 47% у GPT-5.4 полезно для tool-heavy систем, но это не то же самое, что победа в SWE-Bench или Terminal-Bench ^[3].
Считайте смешанные рейтинги ориентиром, а не окончательным вердиктом. В этих источниках победитель меняется в зависимости от бенчмарка, варианта теста и агентной среды ^[1]^[3]^[6]^[7]^[10].

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а преимущест...
Для исправления багов в репозиториях разумно первым тестировать Claude Opus 4.6; для терминальных агентных workflow — GPT 5.3 Codex, но обязательно с той же агентной обвязкой; для tool heavy MCP систем стоит отдельно...
Главная методологическая ловушка: SWE Bench Verified, SWE Bench Pro и SWE Bench Pro Public нельзя складывать в одну таблицу как один и тот же тест, а Terminal Bench 2.0 зависит не только от модели, но и от агента вокр...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.4 против GPT-5.3-Codex и Claude Opus 4.6: победитель в кодинге зависит от теста»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Источники

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...