如果你講嘅「數學」係 AIME 式競賽題,答案相對清楚;如果你講嘅係功課、補習、競賽訓練、量化推理,或者產品流程入面嘅數學工作,答案就冇咁簡單。
喺本文來源之中,最清楚嘅單一公開 benchmark 結果係 Gemini 3.1 Pro Preview:Vals AI 將佢列為 AIME 最高分模型,準確率 98.13%。[1] 不過,呢個只係回答「邊個模型喺呢個 AIME 排行榜最高分?」唔代表所有數學場景都有同一個王者。
先講最直接:AIME 榜,Gemini 3.1 Pro Preview 排第一
AIME 同 HMMT 都係高中數學奧林匹克類競賽,而家亦俾人用嚟做 AI 系統嘅數學 benchmark。[2] 喺 Vals AI 嘅 AIME benchmark 入面,Gemini 3.1 Pro Preview 以 98.13% 準確率排第一。[
1]
所以,如果你問嘅係「邊個模型喺 Vals AI 呢個 AIME 榜領先?」答案好明確:Gemini 3.1 Pro Preview。[1] 但如果你問「邊個 AI 最適合所有數學需要?」就唔可以淨係睇呢一個名次。
點解一個排行榜唔夠拍板?
唔同榜單可以用唔同題目、計分方法、模型設定同更新節奏,結果自然可能唔同。Vals AI 喺 AIME benchmark 將 Gemini 3.1 Pro Preview 排第一;但 LLM Stats 嘅 AIME 2025 leaderboard 就顯示 GPT-5.2 Pro 同 GPT-5.2 都有 rank-1 entries。[1][
4]
更大嘅圖像係:幾個一線模型喺競賽數學上已經擠得好埋。BenchLM 指出,頂尖模型喺 AIME 2025 全部高於 95%,喺 HMMT 2025 就高於 90%。[2] 當分數差距咁細,實際揀邊個,可能更視乎佢解釋得清唔清楚、穩唔穩定、反應快唔快、成本幾多,以及佢係咪真係啱你嗰種題型。
最大但書:公開題目可能令分數偏高
AIME 係有用嘅訊號,但唔係完美嘅新推理測試。Vals AI 提醒,AIME 題目同答案都係公開資料,模型有機會喺預訓練期間見過相關內容。[1]
Vals AI 亦指出,模型喺較舊嘅 2024 題目上通常表現好過較新嘅 2025 題目,令人需要留意資料污染同真正泛化能力嘅問題。[1] 換句話講,好高嘅 AIME 分數證明模型好識應付呢類 benchmark,但唔保證佢面對你今日新出、私有或者冷門格式嘅題目,都會一樣可靠。
按用途揀,比追單一冠軍更實際
| 如果你需要... | 更實際嘅揀法 |
|---|---|
| 本文來源中最強嘅單一 AIME 結果 | 由 Gemini 3.1 Pro Preview 開始睇,因為 Vals AI 將佢列為 AIME 第一,準確率 98.13%。[ |
| 競賽數學練習 | 同時比較 AIME 同 HMMT 類結果;BenchLM 指頂尖模型喺 AIME 2025 高於 95%,喺 HMMT 2025 高於 90%。[ |
| 較闊嘅量化推理排名 | 睇綜合數學排行榜;LLMBase 表示其數學排名使用 Artificial Analysis math index,當中包括 AIME 同 MATH 500。[ |
| 另一種高階數學評估格式 | 可以留意 FrontierMath 類 benchmark;Epoch AI 嘅 FrontierMath Tier 4 要求每條題目都提交一個 Python answer() 函數回傳答案。[ |
| 真實使用可靠度 | 自己出一小組新鮮題測試,尤其係因為 AIME 題目同答案公開,模型可能預訓練時見過。[ |
自己做小測,通常比只睇榜單更有用
如果你係為功課、補習、競賽訓練,或者一個需要數學可靠度嘅產品流程揀 AI,可以先用公開榜單揀 shortlist,然後自己做一個細測:
- 用同一批新題測每個模型。
- 要求佢交最後答案,同時寫清楚推導。
- 合適時要求代入驗算、另一種解法,或者數值檢查。
- 記錄推理錯誤,唔好只睇最後答案啱唔啱。
- 最後揀嗰個喺你實際題型上最準、講得最明、表現最穩定嘅模型。
呢點好重要,因為「數學」其實有好多種用法。一個模型可能好擅長短答競賽題,但未必最啱逐步教學、符號運算、長篇證明,或者要配合程式嘅量化工作。
結論
講到尾,如果你問嘅係 AIME 風格 benchmark,本文來源下最明確嘅答案係 Gemini 3.1 Pro Preview:Vals AI 列出佢以 98.13% 準確率領先 AIME。[1]
但如果你問「最好用嘅數學 AI」呢個大問題,現有證據唔支持一個放諸四海皆準嘅答案:一線模型喺競賽數學已經好接近,不同排行榜會出現不同領先者,而公開 AIME 題目亦帶來資料污染風險。[1][
2][
4] 先用榜單揀 shortlist,再用你自己嘅新題測,會比迷信單一冠軍更可靠。




