Самый надёжный подход для математики — не доверять одному чат боту, а использовать ИИ для объяснения и отдельно проверять вычисления и доказательства.
Vals AI ставит Gemini 3.1 Pro Preview на первое место в AIME с точностью 98,13%, что делает его самым ясным выбором именно для этого бенчмарка.[1]
Самые убедительные сигналы по Kimi K2.6 относятся к coding agent сценариям: SWE Bench Pro, HLE with Tools и Toolathlon.
Самый устойчиво подтверждённый показатель Claude Opus 4.7 в доступных источниках — 87,6 % на SWE bench Verified.
Единого честного рейтинга 1–4 по открытым данным не получается: BenchLM, Vals, GDPval, SWE bench и другие тесты измеряют разные вещи и не дают полного сравнения всех четырёх моделей в одинаковых условиях [8]...
Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%.
Единого победителя нет: Claude Opus 4.7 выше в SWE bench Pro — 64,3% против 58,6%, а GPT 5.5 заметно сильнее в Terminal Bench 2.0 — 82,7% против 69,4%; при этом режимы модели и тестовые стенды различаются [6...