先给一个直接答案:如果你问的是 AIME 这类公开竞赛数学榜单,当前来源里最明确的领先者是 Gemini 3.1 Pro Preview。Vals AI 在 AIME 基准中把它列为第一,准确率为 98.13%。[1]
但如果你问的是更宽泛的数学能力——比如作业辅导、讲题、竞赛训练、定量推理,或把模型接入产品流程——就不能简单说某一个 AI 永远最好。数学任务差别很大,榜单也不是同一把尺子。
先看最清楚的单项结果:Gemini 在 Vals AI 的 AIME 上领先
AIME 和 HMMT 都是高中数学竞赛,现在也常被用来评测 AI 系统的数学推理能力。[2] 对普通用户来说,可以把它们理解为一类标准答案明确、推理链条较强的竞赛题测试。
在 Vals AI 的 AIME 榜单上,Gemini 3.1 Pro Preview 被列为表现最好的模型,准确率为 98.13%。[1] 所以,如果问题精确到:哪个模型在 Vals AI 的 AIME 榜单上排第一?答案就是 Gemini 3.1 Pro Preview。
问题在于,这并不等于它在所有数学场景里都必然最好。
为什么一个榜单不能定胜负
不同榜单可能给出不同的领先者。Vals AI 在 AIME 基准中把 Gemini 3.1 Pro Preview 列在第一位;而 LLM Stats 的 AIME 2025 榜单中,GPT-5.2 Pro 和 GPT-5.2 出现在第 1 名条目里。[1][
4]
更大的趋势是:头部模型在竞赛数学上已经非常接近。BenchLM 报告称,顶尖模型在 AIME 2025 上都超过 95%,在 HMMT 2025 上都超过 90%。[2] 当分数已经挤在高位时,实际选择往往不只看那一点点排名差距,还要看解释是否清楚、答案是否稳定、响应速度、成本,以及模型是否适合你的题目格式。
最大的提醒:公开题库可能让分数虚高
AIME 是有参考价值的信号,但它不是完美的新题测试。Vals AI 指出,AIME 的题目和答案是公开的,因此模型在预训练阶段可能接触过这些内容。[1]
Vals AI 还提到,模型在较旧的 2024 年题目上往往比在较新的 2025 年题目上表现更好,这引出了数据污染和真实泛化能力的问题。[1] 换句话说,AIME 高分说明模型在这个公开基准上很强,但不能保证它遇到全新、私有或不常见的问题时同样可靠。
不同数学需求,应该这样选
| 你的需求 | 更靠谱的判断方式 |
|---|---|
| 只想知道本批来源里 AIME 单项最强 | 先看 Gemini 3.1 Pro Preview,因为 Vals AI 把它列为 AIME 第一,准确率 98.13%。[ |
| 准备竞赛数学 | 同时参考 AIME 和 HMMT 风格结果。BenchLM 称顶尖模型在 AIME 2025 超过 95%,在 HMMT 2025 超过 90%。[ |
| 想要更综合的数学或定量推理排名 | 看复合数学榜单。LLMBase 表示其数学排名使用 Artificial Analysis math index,包含 AIME、MATH 500 等。[ |
| 关注更高级或不同形式的数学评测 | 可参考 FrontierMath 类基准;Epoch AI 的 FrontierMath Tier 4 要求模型为每道题提交返回答案的 Python answer() 函数。[ |
| 要用于真实作业辅导或产品流程 | 自建一组新题测试,尤其是 AIME 公题存在训练中接触过的风险。[ |
比只看排行榜更实用:做一次小型私测
如果你要把 AI 用在学习、教学、竞赛训练或数学密集型工作流中,建议先用公开榜单筛出候选模型,再用自己的题目复测:
- 给每个模型同一组全新的题目。
- 要求同时给出最终答案和清晰推导。
- 适合时要求它用代入、另一种方法或数值检验来验证答案。
- 记录推理漏洞,而不只是记录最后答案对错。
- 选择在你的真实题型上准确、稳定、容易理解的模型。
这一步很关键。一个擅长短答案竞赛题的模型,未必最适合一步步讲题;一个榜单分数很高的模型,也未必最适合符号计算、长证明或需要写代码验证的定量任务。
结论
如果把数学问题限定为 AIME 风格的竞赛基准,Gemini 3.1 Pro Preview 是本批来源中最清楚的答案:Vals AI 将其列为 AIME 第一,准确率 98.13%。[1]
如果问的是更广义的“最强数学 AI”,现有证据并不支持一个通吃所有场景的冠军。头部模型在竞赛数学榜单上已经非常接近,不同平台排名会变化,而公开 AIME 数据也带来污染风险。[1][
2][
4] 更稳妥的做法是:先看榜单,再用你的新题、你的格式、你的评分标准亲自测一遍。




