Утверждение про 13 часов не взято с потолка: Kimi Forum говорит о более чем 12 часах выполнения и 4 000+ вызовах инструментов, а другие источники пересказывают кейс с exchange core на 13 часов.[9][26][32]
Единого победителя нет: GPT 5.5 логично пробовать для терминальных coding agent сценариев, Claude Opus 4.7 — для длинного контекста и больших репозиториев.
Для исправления кода в репозитории и прохождения тестов разумно первым проверить Claude Opus 4.7: в публичных данных SWE bench Pro у Claude Opus 4.7 указано 64,3%, у GPT 5.5 — 58,6%.[16][29]
Строгого общего рейтинга для всех четырех моделей сейчас не получается: в одной таблице OpenAI Claude Opus 4.7 выше GPT 5.5 на SWE Bench Pro — 64,3% против 58,6%, зато GPT 5.5 выше на Terminal Bench 2.0 — 82...
Kimi K2.6 особенно выделяется в задачах программирования: MLQ.ai приводит 58,6 на SWE Bench Pro и 65,8% pass@1 на SWE bench Verified, но независимые оценки пока предварительные [8][9].
Claude Opus 4.7 можно оценивать как реальную модель: Anthropic указывает claude opus 4 7 для Claude API.
Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестов...
Главный показатель Claude Opus 4.7 для разработчиков — 87,6% в SWE bench Verified, по данным AWS со ссылкой на Anthropic; это сильный сигнал для agentic coding, но не универсальная гарантия качества [7].
Самый устойчиво подтверждённый показатель Claude Opus 4.7 в доступных источниках — 87,6 % на SWE bench Verified.
Самая цитируемая цифра Claude Mythos Preview — 93,9% в SWE bench, бенчмарке для задач разработки ПО и работы с кодом [1][2].
Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
Claude Opus 4.7 выглядит лучшим первым кандидатом, если важнее всего качество: в сопоставимых данных он впереди GPT 5.5 и DeepSeek V4 на HLE, а CodeRouter даёт ему 64,3% на SWE Bench Pro [3][16].