RespuestasPublicado29 abr 2026Last edited 6 may 20265 fuentes

¿Cuál es la mejor IA para matemáticas? Gemini lidera AIME, pero el ranking no lo dice todo

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1] No hay ganador universal: BenchLM sitúa a los mejores modelos por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025, mientras LLM Stats muestra a GPT 5.2 Pro...

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

18K0

AI-generated illustration of an AI system solving math equations beside a benchmark leaderboard — Best AI for Math: Gemini Leads AIME, but Benchmarks Need ContextAI-generated editorial illustration of AI math benchmarking and competition-style problem solving.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: Best AI for Math: Gemini Leads AIME, but Benchmarks Need Context. Article summary: For public AIME style competition math, Vals AI’s clearest winner is Gemini 3.1 Pro Preview at 98.13% accuracy, but that does not make it the universal best because AIME is public and other leaderboards differ.[1][4]. Topic tags: ai, math, ai benchmarks, gemini, openai. Reference image context from search candidates: Reference image 1: visual subject "Gemini 3.1 Pro leads every unsaturated math benchmark: GPQA Diamond (94.1%), HLE (44.7%), and ARC-AGI-2 (77.1%) · AIME 2025 is dead as a ranking" source context "Best AI Models for Math Reasoning - April 2026 | Awesome Agents" Reference image 2: visual subject "Gemini 3.1 Pro leads every unsaturated math benchmark: GPQA Diamond (94.1%), HLE (44.7%), and ARC-AGI-2 (77.1%) · AIME 2025 is de
openai.com

Si buscas la mejor IA para matemáticas, primero conviene acotar la pregunta: ¿hablas de problemas tipo olimpiada, ayuda con deberes, tutoría paso a paso, razonamiento cuantitativo o flujos de trabajo con código? En los datos disponibles, la respuesta más clara para un caso concreto es Gemini 3.1 Pro Preview: Vals AI lo coloca como líder de su benchmark AIME con 98,13 % de acierto.^[1] Pero eso no convierte a Gemini —ni a ningún otro modelo— en campeón universal de todas las matemáticas.

La opción más clara si miras solo AIME

AIME y HMMT son competiciones de matemáticas de nivel preuniversitario que ahora se usan como pruebas de referencia para sistemas de IA.^[2] En la clasificación AIME de Vals AI, Gemini 3.1 Pro Preview aparece como el modelo con mejor resultado, con 98,13 % de precisión.^[1]

Si tu pregunta exacta es qué modelo encabeza esa tabla de AIME, la respuesta respaldada por estas fuentes es Gemini 3.1 Pro Preview. La parte importante es el límite: AIME mide un formato muy específico, de problemas cortos y de competición. No evalúa por sí solo si una IA explica bien, detecta un error de planteamiento, enseña álgebra a un estudiante o resuelve tareas largas con programación.

Por qué una sola tabla no basta

Las clasificaciones no siempre coronan al mismo modelo. Vals AI sitúa a Gemini 3.1 Pro Preview primero en su benchmark AIME, mientras que LLM Stats muestra a GPT-5.2 Pro y GPT-5.2 en el puesto 1 de su leaderboard de AIME 2025.^[1]^[4]

Además, la élite está muy apretada. BenchLM informa que los modelos punteros superan el 95 % en AIME 2025 y el 90 % en HMMT 2025.^[2] Cuando varios modelos se mueven tan cerca del techo, una pequeña diferencia de ranking puede importar menos que otros factores: claridad de la explicación, estabilidad entre intentos, velocidad, precio, disponibilidad de herramientas y ajuste al tipo de problema que realmente quieres resolver.

El gran asterisco: los benchmarks públicos pueden estar contaminados

AIME es una señal útil, pero no una prueba perfecta de razonamiento nuevo. Vals AI advierte que las preguntas y respuestas de AIME son públicas, lo que abre la posibilidad de que algunos modelos las hayan visto durante el preentrenamiento.^[1]

La misma fuente señala que los modelos tienden a rendir mejor en preguntas antiguas de 2024 que en el conjunto más reciente de 2025, algo que alimenta dudas sobre contaminación de datos y generalización real.^[1] Dicho de forma simple: un resultado altísimo en AIME demuestra fuerza en esa prueba, pero no garantiza la misma fiabilidad ante ejercicios inéditos, privados o formulados de manera poco habitual.

Qué mirar según tu necesidad

Si necesitas...	Cómo decidir
El mejor resultado único en AIME dentro de estas fuentes	Empieza por Gemini 3.1 Pro Preview, porque Vals AI lo lista primero en AIME con 98,13 % de acierto.^[1]
Entrenar problemas de concurso	Compara resultados de estilo AIME y HMMT: BenchLM informa que los mejores modelos están por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025.^[2]
Una clasificación más amplia de razonamiento cuantitativo	Mira rankings compuestos: LLMBase dice que su ranking de matemáticas usa el índice matemático de Artificial Analysis, que incluye AIME y MATH 500.^[9]
Evaluaciones avanzadas con otro formato	Considera benchmarks tipo FrontierMath; en FrontierMath Tier 4 de Epoch AI, cada modelo debe enviar una función de Python `answer()` para cada pregunta.^[6]
Fiabilidad en uso real	Prepara una pequeña prueba privada, especialmente porque las preguntas públicas de AIME podrían haber aparecido en los datos de entrenamiento.^[1]

Una prueba privada vale más que elegir solo por ranking

Para tareas escolares, tutoría, preparación de concursos o flujos de trabajo con mucha matemática, usa los leaderboards como filtro inicial, no como veredicto final. Un método sencillo:

Selecciona dos o tres modelos punteros.
Dales los mismos problemas nuevos, no copiados de benchmarks públicos.
Exige respuesta final y desarrollo razonado.
Pide una comprobación: sustitución, método alternativo, estimación numérica o verificación con código cuando aplique.
Anota errores de razonamiento, no solo respuestas finales incorrectas.
Quédate con el modelo que sea preciso, claro y constante en tu tipo de problema.

Este punto es clave porque matemáticas no significa una sola cosa. Un modelo puede brillar en problemas cortos de competición y aun así no ser la mejor opción para una tutoría paso a paso, una demostración larga, manipulación simbólica, estadística aplicada o trabajo cuantitativo con programación.

En resumen

Para matemáticas de estilo AIME, Gemini 3.1 Pro Preview es el líder en la lista de Vals AI, con 98,13 % de acierto.^[1] Para la pregunta más amplia —cuál es la mejor IA para matemáticas— las fuentes no justifican nombrar un ganador universal: los modelos de frontera están muy agrupados en benchmarks de competición, distintas tablas pueden señalar líderes distintos y el carácter público de AIME obliga a probar con ejercicios frescos antes de confiar demasiado en cualquier ranking.^[1]^[2]^[4]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1]
No hay ganador universal: BenchLM sitúa a los mejores modelos por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025, mientras LLM Stats muestra a GPT 5.2 Pro y GPT 5.2 en el puesto 1 de AIME 2025.[2][4]
Los benchmarks públicos requieren cautela: Vals AI advierte que las preguntas y respuestas de AIME son públicas y podrían haber aparecido en el preentrenamiento.[1]

La gente también pregunta

¿Cuál es la respuesta corta a "¿Cuál es la mejor IA para matemáticas? Gemini lidera AIME, pero el ranking no lo dice todo"?

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1]

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Los benchmarks públicos requieren cautela: Vals AI advierte que las preguntas y respuestas de AIME son públicas y podrían haber aparecido en el preentrenamiento.[1]

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Lenguaje recibido y vocabulario infantil: qué dice la evidencia

Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde

No basta con hablar más: las respuestas adultas también se asocian con el lenguaje infantil

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: cómo Anthropic usa IA para revisar vulnerabilidades en código empresarial

Claude Security: la beta de Anthropic que escanea código empresarial con IA

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 millón de contexto y precios agresivos para el pulso de xAI en modelos y voz

Grok 4.3 API: 1 millón de contexto, tokens más baratos y la ambición de xAI en voz

Conversación de investigación

Tú18 abr 2026

Pregunta de investigación

Search for: What is the best AI for math?

Studio Global AI18 abr 202612 fuentes

Respuesta citada

If you mean benchmark performance on competition-style math, Gemini 3.1 Pro Preview looks like the current top pick on AIME, with Vals AI listing it at 98.13% accuracy.^[1] But there is no single uncontested “best AI for math,” because rankings vary by benchmark, and AIME is an imperfect measure since its questions are public and may be in training data.^[1]

Vals AI currently lists Gemini 3.1 Pro Preview as the top AIME model at 98.13%.^[1]
BenchLM says frontier models now score about 95–99% on AIME and above 90% on HMMT 2025, so several top models are now very strong at competition math, not just one.^[2]
AIME results should be treated cautiously because publicly available questions can inflate scores, and Vals AI specifically notes possible data contamination and weaker generalization to newer 2025 questions.^[1]
So the practical answer is: for pure math-benchmark strength, Gemini 3.1 Pro Preview appears to lead right now.^[1] For real-world use, several frontier models are close enough that reliability, explanation quality, speed, and tool use may matter more than a tiny benchmark gap.^[2]

If you want, I can also give you:

the best AI for school/homework math,
the best AI for olympiad/contest math,
or a short ranked list of the top 3 math AIs right now.

Fuentes

[1] AIME - Vals AIvals.ai
Gemini 3.1 Pro Preview (02/26) is the new top-performing model on AIME at 98.13% accuracy. As the AIME questions and answers are publicly available, there is a risk that models may have been exposed to them during pretraining. Notably, models tend to perfor...
[2] AIME & HMMT: Can AI Models Do Competition Math? | BenchLM.aibenchlm.ai
AIME & HMMT: Can AI Models Do Competition Math? AIME and HMMT are high school math olympiad competitions now used to benchmark AI. Frontier models score 95-99% — competition math is effectively solved. Frontier AI models now score 95-99% on AIME and HMMT —...
[4] AIME 2025 Leaderboardllm-stats.com
1 GPT-5.2 Pro OpenAI — 400K $21.00 / $168.00 . 1 GPT-5.2 OpenAI — 400K $1.75 / $14.00 . 8 GPT-5.1 High OpenAI — 400K $1.25 / $10.00 . 12 GPT-5.1 Medium OpenAI — 400K $1.25 / $10.00 . 21 GPT-5 OpenAI — 400K $1.25 / $10.00 . 21 GPT-5 High OpenAI — 400K $1.25...
[6] FrontierMath Tier 4 | Epoch AIepoch.ai
You can find more information about the public problems here. For each FrontierMath question, the model needs to submit a Python function answer() that returns the answer. Do not submit your answer using the python tool. It is also not the methodology used...
[9] Best AI Models for Math 2025 | Top 100+ LLM Ranking - LLMBasellmbase.ai
Find the best AI models for mathematics and quantitative reasoning. Ranked by Artificial Analysis math index including AIME, MATH 500 & more.

Tendencias en Descubrir

RespuestasPublicado29 abr 2026Last edited 6 may 20265 fuentes

¿Cuál es la mejor IA para matemáticas? Gemini lidera AIME, pero el ranking no lo dice todo

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

18K0

La opción más clara si miras solo AIME

Por qué una sola tabla no basta

El gran asterisco: los benchmarks públicos pueden estar contaminados

Qué mirar según tu necesidad

Si necesitas...	Cómo decidir
El mejor resultado único en AIME dentro de estas fuentes	Empieza por Gemini 3.1 Pro Preview, porque Vals AI lo lista primero en AIME con 98,13 % de acierto.^[1]
Entrenar problemas de concurso	Compara resultados de estilo AIME y HMMT: BenchLM informa que los mejores modelos están por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025.^[2]
Una clasificación más amplia de razonamiento cuantitativo	Mira rankings compuestos: LLMBase dice que su ranking de matemáticas usa el índice matemático de Artificial Analysis, que incluye AIME y MATH 500.^[9]
Evaluaciones avanzadas con otro formato	Considera benchmarks tipo FrontierMath; en FrontierMath Tier 4 de Epoch AI, cada modelo debe enviar una función de Python `answer()` para cada pregunta.^[6]
Fiabilidad en uso real	Prepara una pequeña prueba privada, especialmente porque las preguntas públicas de AIME podrían haber aparecido en los datos de entrenamiento.^[1]

Una prueba privada vale más que elegir solo por ranking

Para tareas escolares, tutoría, preparación de concursos o flujos de trabajo con mucha matemática, usa los leaderboards como filtro inicial, no como veredicto final. Un método sencillo:

Selecciona dos o tres modelos punteros.
Dales los mismos problemas nuevos, no copiados de benchmarks públicos.
Exige respuesta final y desarrollo razonado.
Pide una comprobación: sustitución, método alternativo, estimación numérica o verificación con código cuando aplique.
Anota errores de razonamiento, no solo respuestas finales incorrectas.
Quédate con el modelo que sea preciso, claro y constante en tu tipo de problema.

En resumen

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1]
No hay ganador universal: BenchLM sitúa a los mejores modelos por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025, mientras LLM Stats muestra a GPT 5.2 Pro y GPT 5.2 en el puesto 1 de AIME 2025.[2][4]
Los benchmarks públicos requieren cautela: Vals AI advierte que las preguntas y respuestas de AIME son públicas y podrían haber aparecido en el preentrenamiento.[1]

La gente también pregunta

¿Cuál es la respuesta corta a "¿Cuál es la mejor IA para matemáticas? Gemini lidera AIME, pero el ranking no lo dice todo"?

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1]

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Los benchmarks públicos requieren cautela: Vals AI advierte que las preguntas y respuestas de AIME son públicas y podrían haber aparecido en el preentrenamiento.[1]

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Lenguaje recibido y vocabulario infantil: qué dice la evidencia

Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde

No basta con hablar más: las respuestas adultas también se asocian con el lenguaje infantil

Claude Security: cómo Anthropic usa IA para revisar vulnerabilidades en código empresarial

Claude Security: la beta de Anthropic que escanea código empresarial con IA

Grok 4.3 API: 1 millón de contexto y precios agresivos para el pulso de xAI en modelos y voz

Grok 4.3 API: 1 millón de contexto, tokens más baratos y la ambición de xAI en voz

Conversación de investigación

Tú18 abr 2026

Pregunta de investigación

Search for: What is the best AI for math?

Studio Global AI18 abr 202612 fuentes

Respuesta citada

Vals AI currently lists Gemini 3.1 Pro Preview as the top AIME model at 98.13%.^[1]
BenchLM says frontier models now score about 95–99% on AIME and above 90% on HMMT 2025, so several top models are now very strong at competition math, not just one.^[2]
AIME results should be treated cautiously because publicly available questions can inflate scores, and Vals AI specifically notes possible data contamination and weaker generalization to newer 2025 questions.^[1]
So the practical answer is: for pure math-benchmark strength, Gemini 3.1 Pro Preview appears to lead right now.^[1] For real-world use, several frontier models are close enough that reliability, explanation quality, speed, and tool use may matter more than a tiny benchmark gap.^[2]

If you want, I can also give you:

the best AI for school/homework math,
the best AI for olympiad/contest math,
or a short ranked list of the top 3 math AIs right now.

Fuentes

[1] AIME - Vals AIvals.ai
Gemini 3.1 Pro Preview (02/26) is the new top-performing model on AIME at 98.13% accuracy. As the AIME questions and answers are publicly available, there is a risk that models may have been exposed to them during pretraining. Notably, models tend to perfor...
[2] AIME & HMMT: Can AI Models Do Competition Math? | BenchLM.aibenchlm.ai
AIME & HMMT: Can AI Models Do Competition Math? AIME and HMMT are high school math olympiad competitions now used to benchmark AI. Frontier models score 95-99% — competition math is effectively solved. Frontier AI models now score 95-99% on AIME and HMMT —...
[4] AIME 2025 Leaderboardllm-stats.com
1 GPT-5.2 Pro OpenAI — 400K $21.00 / $168.00 . 1 GPT-5.2 OpenAI — 400K $1.75 / $14.00 . 8 GPT-5.1 High OpenAI — 400K $1.25 / $10.00 . 12 GPT-5.1 Medium OpenAI — 400K $1.25 / $10.00 . 21 GPT-5 OpenAI — 400K $1.25 / $10.00 . 21 GPT-5 High OpenAI — 400K $1.25...
[6] FrontierMath Tier 4 | Epoch AIepoch.ai
You can find more information about the public problems here. For each FrontierMath question, the model needs to submit a Python function answer() that returns the answer. Do not submit your answer using the python tool. It is also not the methodology used...
[9] Best AI Models for Math 2025 | Top 100+ LLM Ranking - LLMBasellmbase.ai
Find the best AI models for mathematics and quantitative reasoning. Ranked by Artificial Analysis math index including AIME, MATH 500 & more.

Tendencias en Descubrir

RespuestasPublicado29 abr 2026Last edited 6 may 20265 fuentes

¿Cuál es la mejor IA para matemáticas? Gemini lidera AIME, pero el ranking no lo dice todo

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

18K0

La opción más clara si miras solo AIME

Por qué una sola tabla no basta

El gran asterisco: los benchmarks públicos pueden estar contaminados

Qué mirar según tu necesidad

Si necesitas...	Cómo decidir
El mejor resultado único en AIME dentro de estas fuentes	Empieza por Gemini 3.1 Pro Preview, porque Vals AI lo lista primero en AIME con 98,13 % de acierto.^[1]
Entrenar problemas de concurso	Compara resultados de estilo AIME y HMMT: BenchLM informa que los mejores modelos están por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025.^[2]
Una clasificación más amplia de razonamiento cuantitativo	Mira rankings compuestos: LLMBase dice que su ranking de matemáticas usa el índice matemático de Artificial Analysis, que incluye AIME y MATH 500.^[9]
Evaluaciones avanzadas con otro formato	Considera benchmarks tipo FrontierMath; en FrontierMath Tier 4 de Epoch AI, cada modelo debe enviar una función de Python `answer()` para cada pregunta.^[6]
Fiabilidad en uso real	Prepara una pequeña prueba privada, especialmente porque las preguntas públicas de AIME podrían haber aparecido en los datos de entrenamiento.^[1]

Una prueba privada vale más que elegir solo por ranking

Para tareas escolares, tutoría, preparación de concursos o flujos de trabajo con mucha matemática, usa los leaderboards como filtro inicial, no como veredicto final. Un método sencillo:

Selecciona dos o tres modelos punteros.
Dales los mismos problemas nuevos, no copiados de benchmarks públicos.
Exige respuesta final y desarrollo razonado.
Pide una comprobación: sustitución, método alternativo, estimación numérica o verificación con código cuando aplique.
Anota errores de razonamiento, no solo respuestas finales incorrectas.
Quédate con el modelo que sea preciso, claro y constante en tu tipo de problema.

En resumen

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1]
No hay ganador universal: BenchLM sitúa a los mejores modelos por encima del 95 % en AIME 2025 y del 90 % en HMMT 2025, mientras LLM Stats muestra a GPT 5.2 Pro y GPT 5.2 en el puesto 1 de AIME 2025.[2][4]
Los benchmarks públicos requieren cautela: Vals AI advierte que las preguntas y respuestas de AIME son públicas y podrían haber aparecido en el preentrenamiento.[1]

La gente también pregunta

¿Cuál es la respuesta corta a "¿Cuál es la mejor IA para matemáticas? Gemini lidera AIME, pero el ranking no lo dice todo"?

Gemini 3.1 Pro Preview encabeza la lista AIME de Vals AI con 98,13 % de acierto, el resultado más claro para matemáticas de competición en estas fuentes.[1]

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Los benchmarks públicos requieren cautela: Vals AI advierte que las preguntas y respuestas de AIME son públicas y podrían haber aparecido en el preentrenamiento.[1]

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Lenguaje recibido y vocabulario infantil: qué dice la evidencia" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Lenguaje infantil: no solo cuenta cuánto se habla, sino cómo se responde".

Abrir página relacionada

Continúe su investigación

Conversación de investigación

Tú18 abr 2026

Pregunta de investigación

Search for: What is the best AI for math?

Studio Global AI18 abr 202612 fuentes

Respuesta citada

Vals AI currently lists Gemini 3.1 Pro Preview as the top AIME model at 98.13%.^[1]
BenchLM says frontier models now score about 95–99% on AIME and above 90% on HMMT 2025, so several top models are now very strong at competition math, not just one.^[2]
AIME results should be treated cautiously because publicly available questions can inflate scores, and Vals AI specifically notes possible data contamination and weaker generalization to newer 2025 questions.^[1]
So the practical answer is: for pure math-benchmark strength, Gemini 3.1 Pro Preview appears to lead right now.^[1] For real-world use, several frontier models are close enough that reliability, explanation quality, speed, and tool use may matter more than a tiny benchmark gap.^[2]

If you want, I can also give you:

the best AI for school/homework math,
the best AI for olympiad/contest math,
or a short ranked list of the top 3 math AIs right now.

Fuentes

[1] AIME - Vals AIvals.ai
Gemini 3.1 Pro Preview (02/26) is the new top-performing model on AIME at 98.13% accuracy. As the AIME questions and answers are publicly available, there is a risk that models may have been exposed to them during pretraining. Notably, models tend to perfor...
[2] AIME & HMMT: Can AI Models Do Competition Math? | BenchLM.aibenchlm.ai
AIME & HMMT: Can AI Models Do Competition Math? AIME and HMMT are high school math olympiad competitions now used to benchmark AI. Frontier models score 95-99% — competition math is effectively solved. Frontier AI models now score 95-99% on AIME and HMMT —...
[4] AIME 2025 Leaderboardllm-stats.com
1 GPT-5.2 Pro OpenAI — 400K $21.00 / $168.00 . 1 GPT-5.2 OpenAI — 400K $1.75 / $14.00 . 8 GPT-5.1 High OpenAI — 400K $1.25 / $10.00 . 12 GPT-5.1 Medium OpenAI — 400K $1.25 / $10.00 . 21 GPT-5 OpenAI — 400K $1.25 / $10.00 . 21 GPT-5 High OpenAI — 400K $1.25...
[6] FrontierMath Tier 4 | Epoch AIepoch.ai
You can find more information about the public problems here. For each FrontierMath question, the model needs to submit a Python function answer() that returns the answer. Do not submit your answer using the python tool. It is also not the methodology used...
[9] Best AI Models for Math 2025 | Top 100+ LLM Ranking - LLMBasellmbase.ai
Find the best AI models for mathematics and quantitative reasoning. Ranked by Artificial Analysis math index including AIME, MATH 500 & more.