| — |
| 82,7% |
| Expert-SWE Internal — 73,1%; OpenAI отмечает, что другие лаборатории видели evidence of memorization на этом eval. |
| A−: SWE-Bench Pro и Terminal-Bench 2.0 взяты из одной таблицы OpenAI, поэтому их можно напрямую сопоставлять с Claude Opus 4.7. Expert-SWE — внутренний eval, читать осторожно. |
| DeepSeek V4 | — | — | — | — | C, данных недостаточно: в доступных источниках нет проверяемых benchmark-результатов, поэтому числовое место в рейтинге было бы скорее вводящим в заблуждение. |
В таблице OpenAI Claude Opus 4.7 получает 64,3% на SWE-Bench Pro, а GPT-5.5 — 58,6%. Это один из самых надежных фрагментов сравнения: обе модели показаны в одном источнике и в одной строке оценки.
Для продуктовых команд это особенно важно, если сценарий похож на исправление реальных задач в репозиториях. Vellum прямо разбирает эту пару результатов в контексте real GitHub issue resolution — то есть задач, близких к рабочим issue в GitHub-проектах.
Kimi K2.6 в статье Kilo AI тоже указана с 58,6% на SWE-Bench Pro, то есть на уровне GPT-5.5 по этой отдельной цифре. Но это не та же самая сводная таблица, где рядом стоят GPT-5.5 и Claude Opus 4.7, поэтому такой результат лучше считать сигналом для shortlist, а не окончательным доказательством равенства.
На Terminal-Bench 2.0 ситуация обратная: OpenAI указывает 82,7% для GPT-5.5 и 69,4% для Claude Opus 4.7.
Если ваш сценарий ближе к терминалу, командной строке, запуску тестов, работе с окружением и последовательному выполнению действий coding agent, GPT-5.5 стоит первым добавить в собственные испытания. Это не означает, что она лучше во всех задачах программирования, но на этом конкретном бенчмарке преимущество явное.
По Kimi K2.6 и DeepSeek V4 в доступных источниках нет цитируемых результатов Terminal-Bench 2.0, поэтому полноценную четырехстороннюю таблицу по этой строке построить нельзя.
SWE-Bench Verified — более отобранная часть SWE-Bench; BuildFastWithAI описывает ее как curated subset of 500 human-validated GitHub issues. Для Claude Opus 4.7 в сторонних разборах фигурирует 87,6% на SWE-Bench Verified; Verdent помечает эту оценку как Anthropic-conducted и указывает, что применялись memorization screens.
Обе цифры имеют практический интерес. Но они не так хорошо подходят для строгого лобового сравнения, как SWE-Bench Pro и Terminal-Bench 2.0 из таблицы OpenAI, где GPT-5.5 и Claude Opus 4.7 стоят рядом.
У GPT-5.5 есть 73,1% на Expert-SWE Internal, но сама OpenAI относит этот eval к внутренним и добавляет оговорку: другие лаборатории отмечали evidence of memorization на этой оценке.
Поэтому Expert-SWE можно воспринимать как внутренний сигнал OpenAI о возможностях модели, но не как основу для общего рейтинга GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4.
Если ваша задача похожа на исправление GitHub issue или сложную программную инженерию, первым кандидатом выглядит Claude Opus 4.7. В самом чистом для нас сравнении по SWE-Bench Pro Claude Opus 4.7 набирает 64,3% против 58,6% у GPT-5.5. Это не отменяет необходимости собственного теста на ваших репозиториях, но для shortlist сигнал сильный.
Если рабочий процесс завязан на терминал и агентное выполнение команд, начните с GPT-5.5. На Terminal-Bench 2.0 у GPT-5.5 — 82,7%, у Claude Opus 4.7 — 69,4%. Для CLI-heavy задач это более релевантная подсказка, чем общий разговор о лучшей модели.
Если вам нужна открытая модель-кандидат, Kimi K2.6 стоит включить в список. Hugging Face описывает Kimi K2.6 как open-source native multimodal agentic model, а Kilo AI приводит 58,6% на SWE-Bench Pro и 80,2% на SWE-Bench Verified. Но из-за более слабой сопоставимости источников лучше перепроверить модель на собственном наборе задач.
Если вы оцениваете DeepSeek V4, самый аккуратный подход — ждать проверяемых benchmark-результатов или запускать собственный прогон. В этом наборе источников нет надежных чисел, которые позволили бы честно поставить DeepSeek V4 в одну таблицу с остальными.
Сравнения LLM часто ломаются в одном и том же месте: в одну таблицу смешивают результаты из разных harness, разных поставщиков, разных дат и разных условий запуска. Визуально это выглядит как рейтинг, но по сути может оказаться набором несопоставимых чисел.
Здесь разумнее использовать три уровня доверия:
Итог получается не рекламный, зато практичный: Claude Opus 4.7 впереди GPT-5.5 на SWE-Bench Pro; GPT-5.5 впереди Claude Opus 4.7 на Terminal-Bench 2.0; Kimi K2.6 выглядит сильным открытым кандидатом, но с более ограниченной доказательной базой; DeepSeek V4 пока лучше пометить как данных недостаточно.
Следующий шаг после такой таблицы — не спорить о чемпионе, а прогнать модели на собственных задачах: ваши языки программирования, типы репозиториев, тестовая инфраструктура, доступные инструменты, лимиты задержки, стоимость и сценарии восстановления после ошибок. Для выбора модели в продукте это обычно важнее, чем универсальное первое место в чужом бенчмарке.
Comments
0 comments