Но это не значит, что Claude «побеждает всегда». Awesome Agents также указывает, что GPT-5.4 лидирует на SWE-bench Pro с результатом 57,7%, если используется кастомная агентная обвязка. А в показанных строках лидерборда SWE-bench фигурируют Gemini 3 Flash с результатом 75,80 и GPT-5-2 Codex с 72,80.
Иными словами, ответ зависит от того, что именно вы измеряете: реальную работу в репозитории, публичный бенчмарк или качество конкретного агентного workflow.
Главный аргумент в пользу Claude не в том, что модель хорошо пишет изолированные фрагменты кода. Сильнее выглядит другой сценарий: работа с уже существующим проектом, где нужно держать в голове архитектуру, связи между файлами, тесты и последствия правок.
Emergent прямо критикует сравнения, которые смотрят только на качество генерации, и подчёркивает, что реальная производительность в разработке зависит от того, как система справляется с многошаговой работой на уровне репозитория под нагрузкой. В этом контексте источник выделяет Claude Code с Opus 4.6 для сложной отладки, рассуждений по нескольким файлам и рискованных изменений.
Это важно для типичных задач вроде «падает тест после старого рефакторинга», «баг проявляется только после цепочки вызовов» или «надо поменять API и не задеть соседние модули». По данным Emergent, Claude Code удерживает контекст в больших кодовых базах и выдерживает итеративную отладку без деградации качества.
Дополнительный аргумент даёт сравнение агентной обвязки. Awesome Agents сообщает, что GPT-5.4 лидирует на SWE-bench Pro с кастомным scaffolding, но в Scale SEAL-оценке SWE-bench Pro — когда инструменты стандартизированы — вперёд выходит Claude Opus 4.5/4.6. Для команд это принципиально: иногда вы сравниваете не только модели, но и «надстройку» вокруг них — доступ к файлам, запуск тестов, циклы исправления и правила работы агента.
Модели класса GPT-5.x Codex нельзя вычёркивать из серьёзного выбора. Их особенно разумно тестировать, если ваша среда разработки, агентный стек или внутренняя автоматизация уже построены вокруг OpenAI/Codex-подходов.
Самый сильный сигнал в доступных данных — результат GPT-5.4 на SWE-bench Pro. Awesome Agents сообщает, что GPT-5.4 достигает 57,7% на SWE-bench Pro при кастомной агентной обвязке, а сам SWE-bench Pro описывается как более сложная версия бенчмарка, построенная на 1 865 задачах из 41 репозитория.
Кроме того, в показанных строках SWE-bench лидерборда есть GPT-5-2 Codex с результатом 72,80. Это сильный аргумент для команд, которые ориентируются на публичные таблицы результатов. Но одного такого числа недостаточно, чтобы объявить модель лучшей для всех: те же источники показывают, что настройка агентного окружения способна менять итоговый порядок моделей.
Gemini — ещё один кандидат, которого стоит включать в бенчмарковый shortlist. В показанных строках SWE-bench лидерборда Gemini 3 Flash с high reasoning указан с результатом 75,80, то есть выше показанной строки GPT-5-2 Codex с 72,80.
Это делает Gemini особенно интересным, если вы строите первичный отбор по SWE-bench. Но из этого не следует, что Gemini автоматически окажется лучшим внутри вашего репозитория. Публичный результат не обязан совпадать с вашей кодовой базой, правами доступа, тестовым контуром, требованиями к ревью и конкретной агентной обвязкой.
На первый взгляд лидерборды противоречат друг другу. На практике они часто просто измеряют разные вещи.
Практический вывод простой: публичные рейтинги нужны, чтобы составить короткий список. Финальный выбор они за вас не сделают.
Проведите небольшой, но контролируемый trial. Дайте всем кандидатам один и тот же репозиторий, одинаковые инструкции, одинаковые права доступа, одинаковый лимит времени и один и тот же процесс ревью.
Хороший набор задач должен включать:
Отдельно фиксируйте, где заканчивается модель и где начинается агентная система вокруг неё. Доступные данные показывают, что кастомная и стандартизированная обвязка могут менять видимого лидера.
Оценивать лучше не «красоту ответа», а инженерный результат: проходят ли тесты, точны ли объяснения, держит ли модель контекст, правит ли только нужные места и сколько времени уходит на человеческую проверку. Для production-кода такие метрики обычно полезнее одной позиции в лидерборде.
Для самой сложной реальной разработки — многофайловой отладки, работы с архитектурой и рискованных изменений — Claude Code с Opus-моделями выглядит самым обоснованным дефолтом по имеющимся данным.
Для бенчмаркового отбора и специфических агентных workflow обязательно тестируйте GPT-5.x Codex и Gemini: GPT-5.4 указан с 57,7% на SWE-bench Pro при кастомной обвязке, а SWE-bench показывает Gemini 3 Flash с 75,80 в отображённых строках лидерборда.
Comments
0 comments