先說結論:如果你問的是「哪個模型在 Vals AI 的 AIME 排行榜最高?」答案很明確,是 Gemini 3.1 Pro Preview,準確率 98.13%。[1]
但如果你問的是「哪個 AI 最適合我拿來解數學?」答案就沒那麼簡單。數學有很多種:考試競賽題、作業輔導、證明題、工程計算、金融模型、程式化資料分析,對 AI 的要求都不一樣。單一排行榜可以當參考,不能直接當成萬用結論。
最清楚的單一基準:Gemini 在 Vals AI 的 AIME 領先
AIME 和 HMMT 是高中競賽數學類型的測驗,現在也被用來評估 AI 系統的數學能力。[2] 在 Vals AI 的 AIME 基準測試中,Gemini 3.1 Pro Preview 被列為表現最佳的模型,準確率為 98.13%。[
1]
所以,如果你的問題很精準——「在這份 AIME 排行榜上誰第一?」——Gemini 3.1 Pro Preview 是目前資料中最有根據的答案。[1]
但 AIME 主要代表的是競賽式、短答式、高中奧林匹亞風格的數學能力。它不能自動代表模型在所有數學情境下都最好,例如一步步教學、長證明、符號推導、程式輔助計算,或是企業內部的量化工作流程。
為什麼一份排行榜不能定江山
不同平台的排行榜,可能會給出不同的領先者。Vals AI 在 AIME 榜上列 Gemini 3.1 Pro Preview 第一;但 LLM Stats 的 AIME 2025 排行榜中,則出現 GPT-5.2 Pro 與 GPT-5.2 的第 1 名條目。[1][
4]
更大的趨勢是:頂尖模型在競賽數學上已經擠得很近。BenchLM 指出,頂尖模型在 AIME 2025 都超過 95%,在 HMMT 2025 都超過 90%。[2]
這代表實際選擇時,與其糾結 1、2 個百分點的差距,不如看幾個更貼近日常使用的因素:
- 解題步驟是否清楚;
- 是否會穩定給出同一類題目的可靠推理;
- 回答速度與成本是否可接受;
- 能不能處理你的題目格式,例如文字題、圖形題、LaTeX、表格或程式碼;
- 錯的時候是否容易看出錯在哪裡。
最大但書:公開題庫可能讓分數被高估
AIME 是有用的訊號,但不是完美的「新鮮推理」測驗。Vals AI 特別提醒,AIME 的題目與答案是公開的,因此模型在預訓練階段可能已經接觸過相關資料。[1]
Vals AI 也指出,模型在較舊的 2024 題目上通常表現比更新的 2025 題目更好,這讓人需要注意資料污染與真正泛化能力的問題。[1]
換句話說,AIME 高分很重要,但不能解讀成「遇到全新的、私有的、怪題型的數學問題也一定同樣可靠」。排行榜分數像是履歷上的漂亮成績,真正上工前還是要面試。
依需求選,而不是只問誰第一
| 你的需求 | 較合理的判斷方式 |
|---|---|
| 想知道這些來源中最強的單一 AIME 成績 | 先看 Gemini 3.1 Pro Preview,因為 Vals AI 將它列為 AIME 第一,準確率 98.13%。[ |
| 準備競賽數學或類似 AIME、HMMT 的題目 | 同時比較 AIME 與 HMMT 類型的結果;BenchLM 指出頂尖模型在 AIME 2025 超過 95%,在 HMMT 2025 超過 90%。[ |
| 想看更廣的數學與量化推理排名 | 可參考綜合型數學排行榜;LLMBase 表示其數學排名使用 Artificial Analysis math index,包含 AIME、MATH 500 等項目。[ |
| 想測更進階、不同格式的數學能力 | 可留意 FrontierMath 這類基準;Epoch AI 的 FrontierMath Tier 4 要求每個模型針對每題提交 Python 的 answer() 函式來回傳答案。[ |
| 想用在真實工作、教學或產品流程 | 自己建立一小組新題測試,尤其因為公開 AIME 題目可能已出現在訓練資料中。[ |
最實用的方法:自己做一份小型私有測試
如果你是學生、家長、老師、競賽準備者,或正在評估把 AI 放進數學相關產品裡,建議把公開排行榜當成「初選名單」,不要當成最後答案。
可以用這個簡單流程測:
- 準備幾題模型不容易在公開網路上看過的新題。
- 每個模型都給同一批題目。
- 要求它同時提供最後答案與完整推導。
- 視題型要求代回驗算、另一種解法,或數值檢查。
- 不只記錄答案對錯,也記錄推理是否跳步、是否胡亂套公式、是否把題意看錯。
- 優先選擇在你的題型上「準確、解釋清楚、穩定」的模型。
這一點很關鍵:很會做競賽短答題的模型,不一定就是最會教學生的模型;擅長推導的模型,也不一定最適合大量、低延遲的產品流程。
結論
若問題限定在 Vals AI 的 AIME 競賽數學基準,Gemini 3.1 Pro Preview 以 98.13% 準確率居首,是最清楚的答案。[1]
但若問題是「最好的數學 AI 是哪一個」,目前證據不支持一個放諸四海皆準的冠軍。頂尖模型在競賽數學上已非常接近,不同排行榜會出現不同領先者,而且公開 AIME 題庫也帶來資料污染疑慮。[1][
2][
4]
最穩妥的做法是:用排行榜挑候選模型,再用你自己的新題和實際場景測試。對數學 AI 來說,「榜上第一」很有參考價值,但「適合你的題目」才是真正的第一。




