Проверяемые числа сейчас идут от BenchLM: Kimi 2.6 — 13 из 110 в общем предварительном рейтинге с 83/100 и 6 из 110 в coding/programming со средним баллом 89,8.[4]
Утверждение про 13 часов не взято с потолка: Kimi Forum говорит о более чем 12 часах выполнения и 4 000+ вызовах инструментов, а другие источники пересказывают кейс с exchange core на 13 часов.[9][26][32]
Открытых тестов в одинаковых условиях, которые доказали бы, что Claude Opus 4.7 или GPT 5.5 всегда меньше сбивается в долгих исследованиях, сейчас нет.
Claude Opus 4.7 сейчас выглядит сильнее по публичным цифрам для coding‑agent: VentureBeat сообщает 64,3% на SWE bench Pro, а Interesting Engineering приводит 58,6% для GPT‑5.5.[33][39]
По опубликованным данным OpenAI, GPT 5.5 набирает 84,9 % в GDPval против 83,0 % у GPT 5.4 — это заметный, но скорее инкрементальный прирост.[14][12]
GPT 5.5 вышла 23 апреля 2026 года; OpenAI описывает её как модель для сложной работы с кодом, онлайн исследованиями, документами, таблицами и инструментами.[22][15]
GPT 5.5 набирает 82,7% в Terminal Bench 2.0 против 69,4% у Claude Opus 4.7, но в SWE Bench Pro Claude выше: 64,3% против 58,6%; обе метрики требуют осторожной интерпретации.[4][8]
GPT 5.5 в целом сильнее для задач на максимум возможностей: OpenAI указывает 84,9% на GDPval, 78,7% на OSWorld Verified и 98,0% на Tau2 bench Telecom [22].
Универсального победителя по открытым данным нет: выбирать стоит не по хайпу, а по цене принятого ответа, качеству, задержке и числу повторных запусков.
Единого победителя нет: GPT 5.5 логично пробовать для терминальных coding agent сценариев, Claude Opus 4.7 — для длинного контекста и больших репозиториев.
Для исправления кода в репозитории и прохождения тестов разумно первым проверить Claude Opus 4.7: в публичных данных SWE bench Pro у Claude Opus 4.7 указано 64,3%, у GPT 5.5 — 58,6%.[16][29]
Не стоит читать эти данные как окончательный рейтинг «лучшей модели»: настройки вывода, даты оценки и методики у источников различаются.