結論から言うと、「数学に強いAI」は、どの種類の数学を解かせたいかで変わります。公開AIME型の競技数学ベンチマークに限れば、提供ソースの中で最も明確な答えはGemini 3.1 Pro Previewです。Vals AIは同モデルをAIMEで98.13%の正答率としてトップに掲載しています。[1]
ただし、それだけで「数学全般で最高」とは言えません。学習支援、コンテスト対策、定量推論、業務システムへの組み込みでは、正答率だけでなく、説明の分かりやすさ、安定性、速度、料金、入力形式への相性も重要になります。
AIMEではGeminiが最も分かりやすい候補
AIMEやHMMTは、高校生向けの競技数学コンテストで、現在はAIモデルの数学力を測るベンチマークとしても使われています。[2]
その中で、Vals AIのAIMEベンチマークはGemini 3.1 Pro Previewを98.13%の正答率でトップに掲載しています。[1]
つまり、「AIMEのリーダーボードでどのモデルが首位か」という質問なら、Gemini 3.1 Pro Previewが最も素直な答えです。ただし、AIMEで強いことは、すべての数学問題で最良であることを自動的には意味しません。
1つの順位表だけでは決めきれない
AIベンチマークは、評価サイトや出題範囲によって上位モデルが変わることがあります。Vals AIではGemini 3.1 Pro PreviewがAIME首位ですが、LLM StatsのAIME 2025リーダーボードではGPT-5.2 ProとGPT-5.2が1位の項目として示されています。[1][
4]
また、上位モデル同士の差もかなり詰まっています。BenchLMは、AIME 2025では上位モデルが95%超、HMMT 2025では90%超に達していると報告しています。[2]
ここまで高得点帯に密集すると、実際の選択では「0.数%の順位差」よりも、次のような点が効いてきます。
- 解説が理解しやすいか
- 途中式に破綻が少ないか
- 同じ問題を少し変えても安定して解けるか
- 回答が速いか
- APIや有料版として使う場合の料金が見合うか
- 自分の問題形式、たとえば文章題、証明、表計算、コード実行に合っているか
公開ベンチマークには「見たことがある問題」のリスクがある
AIMEは有用な指標ですが、完全に新しい推論力だけを測っているとは限りません。Vals AIは、AIMEの問題と解答が公開されているため、モデルが事前学習中にそれらを見ていた可能性があると注意しています。[1]
さらにVals AIは、モデルが新しい2025年の問題よりも古い2024年の問題で良い成績を出す傾向があるとも報告しており、データ混入や真の汎化性能について疑問が残るとしています。[1]
そのため、AIMEで非常に高いスコアを出していることは「そのベンチマークに強い」という重要なシグナルではありますが、未公開の新作問題や、少し形式の違う問題でも同じだけ信頼できるとは限りません。
用途別:どのAIを選ぶべきか
| やりたいこと | 見るべきポイント |
|---|---|
| AIME型の競技数学で強いモデルを選びたい | Vals AIがAIMEでGemini 3.1 Pro Previewを98.13%の首位と掲載しているため、まず候補に入ります。[ |
| コンテスト数学の練習に使いたい | AIMEだけでなくHMMTも見ます。BenchLMはAIME 2025で上位モデルが95%超、HMMT 2025で90%超と報告しています。[ |
| 定量推論を含む広い数学ランキングを見たい | 複合指標を確認します。LLMBaseは、AIMEやMATH 500などを含むArtificial Analysis math indexを使って数学ランキングを作ると説明しています。[ |
| 高度数学や別形式の評価も見たい | FrontierMathのような形式も参考になります。Epoch AIのFrontierMath Tier 4では、各問に対してPythonのanswer()関数を提出する必要があります。[ |
| 実務で安定して使いたい | 公開AIME問題は訓練データに含まれた可能性があるため、手元の未公開・新作問題で小さな検証セットを作るのが安全です。[ |
リーダーボードを見るだけでなく、自分の問題で試す
学校の学習、個別指導、コンテスト対策、あるいは数学を使うプロダクト開発でAIを選ぶなら、まず公開リーダーボードで候補を絞り、その後に自分の用途に近い問題で試すのが現実的です。
おすすめの確認方法は次の通りです。
- 各モデルに同じ新しい問題を出す。
- 最終答えだけでなく、途中式や根拠も求める。
- 必要に応じて、代入確認、別解、数値チェックを求める。
- 最終答えの正誤だけでなく、「もっともらしいが間違った説明」も記録する。
- 精度、説明の分かりやすさ、一貫性、速度、料金を総合して選ぶ。
短答式の競技数学に強いモデルが、段階的な学習指導、長い証明、記号計算、コードを使う定量分析でも常に最適とは限りません。逆に、順位表でわずかに下のモデルでも、自分の問題では説明が安定していて使いやすい場合があります。
結論
AIME型のベンチマーク数学に限れば、提供ソース上ではGemini 3.1 Pro PreviewがVals AIのAIMEで98.13%の首位です。[1]
しかし、「数学に最も強いAI」を1つに決めるには根拠が足りません。上位モデルは競技数学ベンチマークで接戦になっており、リーダーボードによって首位の見え方も変わります。[1][
2][
4] さらに、公開AIME問題には学習データ混入のリスクがあります。[
1]
したがって、答えはこうです。AIME重視ならGemini 3.1 Pro Previewを最初に見る価値があります。実際に使うなら、複数の上位モデルを候補にして、自分の新しい問題で検証してから選ぶべきです。




