Jawaban paling jujur: tergantung matematika yang Anda maksud. Jika yang dicari adalah performa di soal kompetisi bergaya AIME, kandidat terkuat dari sumber yang tersedia adalah Gemini 3.1 Pro Preview. Vals AI menempatkannya di posisi teratas benchmark AIME dengan akurasi 98,13%.[1]
Tetapi untuk kebutuhan yang lebih luas—belajar langkah demi langkah, latihan lomba, memahami PR, penalaran kuantitatif, atau alur kerja produk—tidak ada satu model yang terbukti menjadi pemenang universal.
Pilihan benchmark paling jelas: Gemini di AIME
AIME dan HMMT adalah kompetisi matematika tingkat SMA yang kini juga digunakan sebagai tolok ukur sistem AI.[2] Pada benchmark AIME versi Vals AI, Gemini 3.1 Pro Preview tercatat sebagai model dengan performa terbaik, dengan akurasi 98,13%.[
1]
Jadi, bila pertanyaannya sempit—model mana yang memimpin leaderboard AIME tersebut—jawabannya adalah Gemini 3.1 Pro Preview. Namun hasil itu tidak otomatis berarti Gemini adalah AI terbaik untuk semua jenis soal matematika.
Mengapa satu papan peringkat belum cukup
Leaderboard yang berbeda bisa menampilkan pemimpin berbeda. Vals AI menempatkan Gemini 3.1 Pro Preview di urutan pertama untuk AIME, sementara LLM Stats menunjukkan GPT-5.2 Pro dan GPT-5.2 dalam entri peringkat pertama di leaderboard AIME 2025.[1][
4]
Gambaran besarnya: persaingan di puncak sudah sangat rapat. BenchLM melaporkan model-model teratas berada di atas 95% pada AIME 2025 dan di atas 90% pada HMMT 2025.[2] Ketika performanya sedekat itu, pilihan praktis sering ditentukan oleh hal lain: kualitas penjelasan, konsistensi, kecepatan, biaya, dan kecocokan dengan format soal Anda.
Catatan penting: benchmark publik bisa tercemar
AIME adalah sinyal yang berguna, tetapi bukan ujian yang benar-benar tertutup. Vals AI mencatat bahwa pertanyaan dan jawaban AIME tersedia untuk publik, sehingga ada risiko model pernah melihatnya saat pretraining.[1]
Vals AI juga melaporkan bahwa model cenderung lebih baik pada soal 2024 yang lebih lama dibanding set 2025 yang lebih baru; ini menimbulkan pertanyaan tentang kontaminasi data dan generalisasi yang sebenarnya.[1] Artinya, skor AIME yang nyaris sempurna adalah sinyal kuat, tetapi bukan jaminan model akan sama andalnya pada soal baru, privat, atau tidak biasa.
Cara memilih berdasarkan kebutuhan
| Jika Anda membutuhkan... | Cara terbaik menilainya |
|---|---|
| Jawaban benchmark AIME paling kuat dari sumber ini | Mulai dari Gemini 3.1 Pro Preview, karena Vals AI menempatkannya di urutan pertama AIME dengan akurasi 98,13%.[ |
| Latihan matematika kompetisi | Bandingkan hasil bergaya AIME dan HMMT, karena BenchLM melaporkan model teratas di atas 95% pada AIME 2025 dan di atas 90% pada HMMT 2025.[ |
| Peringkat penalaran kuantitatif yang lebih luas | Lihat leaderboard gabungan. LLMBase menyatakan ranking matematikanya memakai indeks matematika Artificial Analysis, termasuk AIME dan MATH 500.[ |
| Evaluasi matematika lanjutan dengan format berbeda | Pertimbangkan benchmark bergaya FrontierMath; FrontierMath Tier 4 dari Epoch AI meminta setiap model mengirim fungsi Python answer() untuk tiap pertanyaan.[ |
| Keandalan untuk penggunaan nyata | Buat set uji kecil yang privat dan segar, terutama karena soal AIME publik mungkin pernah muncul dalam data pelatihan.[ |
Uji kecil sendiri lebih berguna daripada hanya melihat leaderboard
Untuk belajar, tutoring, latihan lomba, atau workflow kuantitatif, gunakan leaderboard sebagai saringan awal, bukan keputusan final. Setelah itu, jalankan evaluasi sederhana:
- Berikan soal baru yang sama ke tiap model.
- Minta jawaban akhir sekaligus penurunan langkah demi langkah.
- Jika cocok, minta verifikasi lewat substitusi, metode alternatif, atau pemeriksaan numerik.
- Catat penalaran yang keliru, bukan hanya jawaban akhir yang salah.
- Pilih model yang akurat, mudah dipahami, dan konsisten pada jenis soal Anda.
Ini penting karena kebutuhan matematika tidak selalu sama. Model yang sangat kuat untuk soal kompetisi berjawaban singkat belum tentu paling pas untuk mengajar konsep, manipulasi simbolik, pembuktian panjang, atau pekerjaan kuantitatif berbasis kode.
Kesimpulan
Untuk benchmark matematika bergaya AIME, Gemini 3.1 Pro Preview adalah pilihan paling jelas dalam daftar Vals AI, dengan akurasi 98,13%.[1] Untuk pertanyaan yang lebih luas, yaitu AI terbaik untuk matematika, bukti yang tersedia tidak menunjuk satu pemenang universal: model terdepan sudah berdekatan di benchmark kompetisi, peringkat bisa berubah antar-leaderboard, dan data AIME yang publik membuat uji dengan soal segar tetap penting sebelum terlalu percaya pada satu angka.[
1][
2][
4]




