Короткий ответ
Если под «лучшим ИИ для математики» понимать лидерство в конкретном публичном бенчмарке AIME, то самый сильный ответ из доступных источников — Gemini 3.1 Pro Preview: Vals AI указывает его как лучшую модель AIME с точностью 98,13%.[1]
Но если речь о школьных задачах, репетиторстве, подготовке к олимпиадам, инженерных расчетах, финансовых моделях или математике в продукте, одного универсального победителя нет. В таком случае важны не только проценты в таблице, но и качество объяснений, устойчивость на новых задачах, цена, скорость и умение проверять собственный ответ.
Почему Gemini сейчас выглядит главным кандидатом в AIME
AIME и HMMT — это соревнования по математике для школьников, которые теперь часто используют как тесты для ИИ-моделей.[2] Для русскоязычного читателя их проще воспринимать как формат олимпиадных задач: требуется не просто вычислить ответ, а распознать идею решения.
В таблице Vals AI для AIME модель Gemini 3.1 Pro Preview стоит на первом месте с результатом 98,13% точности.[1] Поэтому, если вопрос звучит узко — «какая модель лидирует именно в этом AIME-рейтингe?» — ответ достаточно прямой: Gemini 3.1 Pro Preview.
Однако этот результат не означает, что та же модель автоматически будет лучшей во всех математических сценариях: от объяснения дробей пятикласснику до длинного доказательства или программного расчета.
Почему один рейтинг не закрывает вопрос
Разные площадки могут показывать разных лидеров. Vals AI ставит Gemini 3.1 Pro Preview первым в своем AIME-бенчмарке, а LLM Stats показывает GPT-5.2 Pro и GPT-5.2 в строках с первым местом в лидерборде AIME 2025.[1][
4]
Общая картина такая: верхушка рейтингов стала очень плотной. BenchLM сообщает, что лучшие модели набирают более 95% на AIME 2025 и более 90% на HMMT 2025.[2] Когда результаты настолько близки, практическая разница для пользователя может зависеть не от долей процента в таблице, а от того, как модель объясняет ход решения, насколько часто ошибается в рассуждениях и подходит ли она под ваш формат задач.
Главная оговорка: публичные бенчмарки не идеальны
AIME полезен как ориентир, но это не безупречная проверка «чистого» мышления. Vals AI прямо отмечает, что вопросы и ответы AIME публично доступны, поэтому есть риск, что модели встречали их на этапе предварительного обучения.[1]
Кроме того, по данным Vals AI, модели обычно лучше справляются со старыми заданиями 2024 года, чем с более новым набором 2025 года. Это поднимает вопрос о попадании данных в обучение и о том, насколько хорошо модель обобщает решение на действительно новые задачи.[1]
Проще говоря: высокий балл AIME — сильный сигнал, но не гарантия, что модель столь же надежно решит свежую, закрытую или нестандартно сформулированную задачу.
Как выбирать модель под свою задачу
| Если вам нужно... | Как разумнее выбирать |
|---|---|
| Лучший результат именно в AIME среди этих источников | Начать с Gemini 3.1 Pro Preview: Vals AI ставит его первым в AIME с точностью 98,13%.[ |
| Подготовка к олимпиадной математике | Сравнивать результаты не только AIME, но и HMMT: BenchLM пишет, что топовые модели выше 95% на AIME 2025 и выше 90% на HMMT 2025.[ |
| Более широкий рейтинг математических и количественных способностей | Смотреть композитные рейтинги. LLMBase указывает, что его математический рейтинг использует индекс Artificial Analysis, включая AIME и MATH 500.[ |
| Проверка на другом формате продвинутой математики | Рассмотреть бенчмарки вроде FrontierMath: в Tier 4 от Epoch AI модель должна для каждого вопроса отправить Python-функцию answer(), возвращающую ответ.[ |
| Надежность в реальной работе | Сделать небольшой закрытый тест на собственных свежих задачах, особенно с учетом риска, что публичные задания AIME могли попасть в обучающие данные.[ |
Мини-тест лучше, чем слепая вера в лидерборд
Для учебы, репетиторства, олимпиадной подготовки или рабочего процесса с расчетами разумная схема такая:
- Возьмите 10–30 свежих задач вашего типа.
- Дайте один и тот же набор нескольким моделям.
- Требуйте не только финальный ответ, но и понятный вывод.
- Просите проверку: подстановку, альтернативный способ, численную оценку или проверку граничных случаев — где это уместно.
- Считайте не только неправильные ответы, но и ошибки в логике.
- Выбирайте модель, которая стабильно решает именно ваши задачи и объясняет так, как вам удобно.
Это особенно важно потому, что «математика» — слишком широкое слово. Модель может отлично отвечать на короткие олимпиадные задачи, но быть менее удобной для пошагового обучения, символьных преобразований, длинных доказательств или расчетов через код.
Итог
Для AIME-стиля самый ясный источник-backed выбор — Gemini 3.1 Pro Preview, который Vals AI ставит на первое место с точностью 98,13%.[1]
Для более широкого вопроса «какой ИИ лучше для математики?» честный ответ осторожнее: универсального победителя источники не показывают. Топовые модели близки друг к другу на олимпиадных бенчмарках, разные рейтинги называют разных лидеров, а публичность AIME создает риск завышенных результатов из-за попадания задач в обучающие данные.[1][
2][
4] Поэтому лидерборд стоит использовать как фильтр, а окончательный выбор делать на свежих задачах из вашего реального сценария.




