수학을 잘하는 AI를 하나만 골라달라고 하면, 먼저 물어봐야 할 질문이 있습니다. ‘어떤 수학’인가요?
제공된 자료만 놓고 보면, 공개 AIME식 경시 수학 벤치마크에서 가장 분명한 단일 결과는 Gemini 3.1 Pro Preview입니다. Vals AI는 이 모델을 AIME 정확도 98.13%의 1위 모델로 올려놓고 있습니다.[1] 다만 숙제 풀이, 과외식 설명, 경시대회 대비, 정량 추론, 제품 안의 계산 워크플로까지 모두 합쳐 ‘수학에 가장 좋은 AI’ 하나를 정하기에는 근거가 충분하지 않습니다.
AIME 리더보드만 보면 Gemini가 가장 뚜렷하다
AIME와 HMMT는 고등학생 대상 수학 올림피아드·경시대회 유형으로, 최근에는 AI 모델의 수학 추론 능력을 재는 벤치마크로도 쓰이고 있습니다.[2]
그중 Vals AI의 AIME 벤치마크에서는 Gemini 3.1 Pro Preview가 98.13% 정확도로 1위에 올라 있습니다.[1] 따라서 질문이 정확히 ‘Vals AI AIME 리더보드에서 가장 앞선 모델은 무엇인가’라면 답은 Gemini 3.1 Pro Preview라고 할 수 있습니다.
하지만 이것이 곧 모든 수학 문제에서 Gemini가 무조건 최고라는 뜻은 아닙니다. AIME는 특정한 형식의 경시 수학 평가이고, 실제 사용자는 훨씬 다양한 문제를 만납니다.
리더보드 하나로 결론을 내리기 어려운 이유
AI 수학 벤치마크는 사이트와 평가 방식에 따라 다른 결과를 보여줄 수 있습니다. Vals AI는 AIME에서 Gemini 3.1 Pro Preview를 1위로 제시하지만, LLM Stats의 AIME 2025 리더보드는 GPT-5.2 Pro와 GPT-5.2를 1위 항목으로 보여줍니다.[1][
4]
더 큰 흐름은 하나입니다. 최상위권 모델들이 경시 수학에서 이미 매우 높은 수준으로 몰려 있다는 점입니다. BenchLM은 상위 모델들이 AIME 2025에서 95% 이상, HMMT 2025에서 90% 이상을 기록한다고 보고합니다.[2]
이 정도로 점수가 가까워지면, 실제 선택에서는 1~2개의 순위 차이보다 다음 요소가 더 중요해질 수 있습니다.
- 풀이 설명이 이해하기 쉬운가
- 같은 유형에서 답이 일관적인가
- 오답이 났을 때 스스로 검산하거나 수정할 수 있는가
- 응답 속도와 비용이 내 사용 방식에 맞는가
- 내가 다루는 문제 형식, 예컨대 서술형 풀이·증명·계산 코드·표 데이터에 강한가
공개 벤치마크의 큰 변수: 문제를 이미 봤을 가능성
AIME는 유용한 신호이지만, ‘처음 보는 문제를 얼마나 잘 푸는가’를 완벽하게 보여주는 시험은 아닙니다. Vals AI는 AIME 문제와 정답이 공개되어 있어, 모델이 사전학습 과정에서 해당 자료를 접했을 위험이 있다고 설명합니다.[1]
또 Vals AI는 모델들이 2025년 문제보다 오래된 2024년 문제에서 더 좋은 성능을 보이는 경향이 있다고 보고합니다. 이는 데이터 오염 가능성과 진짜 일반화 능력에 대한 의문을 남깁니다.[1]
쉽게 말해, AIME 점수가 매우 높다는 것은 해당 벤치마크에서 강하다는 뜻입니다. 그러나 새로 만든 비공개 문제, 특이한 형식의 문제, 실제 수업·업무에서 나오는 문제에서도 같은 신뢰도를 보장한다는 뜻은 아닙니다.
목적별로 이렇게 고르는 편이 낫다
| 필요한 것 | 판단 방법 |
|---|---|
| 제공된 자료에서 가장 강한 단일 AIME 결과 | Vals AI가 Gemini 3.1 Pro Preview를 AIME 98.13% 정확도의 1위로 제시하므로, 여기서 출발할 수 있습니다.[ |
| 경시대회식 수학 연습 | AIME와 HMMT 결과를 함께 보세요. BenchLM은 상위 모델들이 AIME 2025에서 95% 이상, HMMT 2025에서 90% 이상이라고 보고합니다.[ |
| 더 넓은 수학·정량 추론 순위 | 복합 수학 리더보드를 참고하세요. LLMBase는 자사 수학 순위가 AIME와 MATH 500 등을 포함한 Artificial Analysis 수학 지수를 사용한다고 설명합니다.[ |
| 다른 형식의 고급 수학 평가 | FrontierMath 같은 평가도 살펴볼 수 있습니다. Epoch AI의 FrontierMath Tier 4에서는 각 문제마다 모델이 Python answer() 함수를 제출해야 합니다.[ |
| 실제 사용에서의 신뢰도 | 공개 AIME 문제가 학습 데이터에 들어갔을 가능성이 있으므로, 직접 만든 작은 비공개 테스트 세트를 쓰는 편이 좋습니다.[ |
리더보드보다 더 실용적인 방법: 내 문제로 짧게 시험하기
학교 공부, 튜터링, 경시대회 준비, 수학이 많이 들어가는 제품 기능을 위해 AI를 고른다면 공개 리더보드는 ‘후보 압축’에 쓰는 것이 좋습니다. 최종 선택 전에는 다음처럼 직접 테스트해 보세요.
- 각 모델에 같은 새 문제를 줍니다.
- 최종 답뿐 아니라 풀이 과정을 함께 요구합니다.
- 가능한 경우 대입 검산, 다른 풀이, 수치 확인을 요청합니다.
- 틀린 최종 답만 세지 말고, 그럴듯하지만 잘못된 논리도 기록합니다.
- 내 문제 유형에서 정확하고, 설명이 명확하며, 여러 번 물어도 안정적인 모델을 고릅니다.
수학 사용 사례는 생각보다 다릅니다. 짧은 경시대회 단답형 문제를 잘 푸는 모델이 단계별 튜터링, 긴 증명, 기호 계산, 코드 기반 정량 분석에서도 항상 최선이라고 보기는 어렵습니다.
결론
AIME식 벤치마크 수학만 놓고 보면, Vals AI 기준 Gemini 3.1 Pro Preview가 98.13% 정확도로 선두입니다.[1] 그러나 ‘수학에 가장 좋은 AI’라는 더 넓은 질문에는 하나의 보편적 승자가 있다고 말하기 어렵습니다. 최상위 모델들은 경시 수학 벤치마크에서 매우 촘촘하게 붙어 있고, 리더보드마다 순위가 다르며, 공개 AIME 데이터는 벤치마크 점수를 과신하지 말아야 할 이유가 됩니다.[
1][
2][
4]
따라서 가장 현실적인 답은 이렇습니다. AIME 리더보드 기준으로는 Gemini를 먼저 보되, 실제 선택은 당신이 풀 문제로 직접 검증하세요.




