คำตอบสั้น ๆ คือ: ขึ้นอยู่กับว่าคุณหมายถึง “เก่งคณิต” แบบไหน
ถ้าถามเฉพาะว่า “โมเดลใดนำบนลีดเดอร์บอร์ด AIME ของ Vals AI” คำตอบที่มีหลักฐานชัดที่สุดคือ Gemini 3.1 Pro Preview ซึ่ง Vals AI ระบุว่าเป็นโมเดลอันดับหนึ่งบน AIME ด้วยความแม่นยำ 98.13%[1]
แต่ถ้าคุณจะใช้ AI เพื่อทำการบ้าน อธิบายวิธีคิด ติวสอบแข่งขัน ตรวจงานเชิงตัวเลข หรือฝังในเวิร์กโฟลว์จริง คำตอบจะไม่ง่ายเท่าการดูอันดับเดียว เพราะ benchmark แต่ละชุดวัดคนละมุม และโมเดลระดับบนหลายตัวทำคะแนนใกล้กันมาก
AIME คืออะไร และทำไมคนใช้วัด AI ด้านคณิต
AIME และ HMMT เป็นการแข่งขันคณิตศาสตร์ระดับมัธยมที่ถูกนำมาใช้เป็น benchmark เพื่อทดสอบระบบ AI ด้านโจทย์คณิตแข่งขัน[2] พูดง่าย ๆ คือโจทย์แนวนี้มักต้องใช้การให้เหตุผลที่แน่น การจัดรูปสมการ ความเข้าใจเชิงจำนวน และการหาคำตอบที่แม่นยำ
บน benchmark AIME ของ Vals AI ตอนนี้ Gemini 3.1 Pro Preview ถูกจัดเป็นโมเดลที่ทำผลงานสูงสุดที่ 98.13% accuracy[1] ดังนั้น หากนิยามของคุณคือ “ใครชนะในตาราง AIME ของ Vals AI” Gemini คือคำตอบที่ตรงที่สุดจากแหล่งข้อมูลนี้
อย่างไรก็ตาม AIME เป็นเพียงโจทย์คณิตประเภทหนึ่ง ไม่ได้แปลว่าโมเดลเดียวกันจะดีที่สุดเสมอสำหรับการสอนแบบทีละขั้น การพิสูจน์ยาว ๆ การคำนวณเชิงสัญลักษณ์ หรือการทำงานร่วมกับโค้ดและข้อมูลจริง
ทำไมลีดเดอร์บอร์ดเดียวบอกทุกอย่างไม่ได้
ภาพรวมของตลาดตอนนี้คือ โมเดลระดับ frontier หลายตัวขึ้นมาอยู่หัวตารางพร้อมกัน คะแนนจึงเบียดกันมาก
ตัวอย่างเช่น Vals AI จัดให้ Gemini 3.1 Pro Preview เป็นอันดับหนึ่งบน AIME ขณะที่ LLM Stats แสดง GPT-5.2 Pro และ GPT-5.2 อยู่ในรายการอันดับ 1 บนลีดเดอร์บอร์ด AIME 2025[1][
4]
BenchLM ยังรายงานว่าโมเดลอันดับต้น ๆ ทำคะแนนได้สูงกว่า 95% บน AIME 2025 และสูงกว่า 90% บน HMMT 2025[2] เมื่อคะแนนเข้าใกล้เพดานแบบนี้ ความต่างเล็ก ๆ บนตารางอาจสำคัญน้อยกว่าสิ่งที่ผู้ใช้เจอจริง เช่น
- อธิบายวิธีคิดชัดหรือไม่
- คงเส้นคงวาแค่ไหนเมื่อโจทย์เปลี่ยนรูป
- ตอบเร็วหรือช้า
- ค่าใช้จ่ายเหมาะกับการใช้งานหรือไม่
- รับรูปแบบโจทย์ของคุณได้ดีแค่ไหน เช่น ข้อความยาว ตาราง โค้ด หรือสัญลักษณ์คณิต
จุดที่ต้องระวัง: benchmark สาธารณะอาจมีข้อมูลปนเปื้อน
AIME มีประโยชน์มากในฐานะสัญญาณวัดความสามารถ แต่ไม่ใช่ข้อพิสูจน์สมบูรณ์ว่าโมเดล “คิดสด” ได้ดีเสมอไป
Vals AI ระบุว่าโจทย์และคำตอบของ AIME เป็นข้อมูลสาธารณะ จึงมีความเสี่ยงที่โมเดลอาจเคยพบข้อมูลเหล่านี้ระหว่างการ pretraining[1] นอกจากนี้ Vals AI ยังรายงานว่าโมเดลมักทำผลงานกับโจทย์เก่าปี 2024 ได้ดีกว่าชุดใหม่ปี 2025 ซึ่งทำให้เกิดคำถามเรื่อง data contamination และความสามารถในการ generalize กับโจทย์ใหม่จริง ๆ[
1]
แปลเป็นภาษาคนใช้: คะแนน AIME ที่สูงมากบอกว่าโมเดลเก่งบนสนามนี้ แต่ยังไม่ควรสรุปทันทีว่าจะเชื่อถือได้เท่ากันกับโจทย์ใหม่ โจทย์เฉพาะทาง หรือโจทย์ที่ไม่เคยเผยแพร่
ถ้าจะเลือก AI ทำคณิต ควรดูอะไร
| ถ้าคุณต้องการ... | วิธีเลือกที่เหมาะกว่า |
|---|---|
| ตัวเลือกที่ชัดที่สุดจาก AIME ในแหล่งข้อมูลนี้ | เริ่มจาก Gemini 3.1 Pro Preview เพราะ Vals AI ระบุว่าเป็นอันดับหนึ่งบน AIME ที่ 98.13% accuracy[ |
| ฝึกโจทย์แข่งขันคณิต | ดูผลทั้ง AIME และ HMMT เพราะ BenchLM รายงานว่าโมเดลหัวตารางสูงกว่า 95% บน AIME 2025 และสูงกว่า 90% บน HMMT 2025[ |
| จัดอันดับความสามารถเชิงคณิตและเหตุผลเชิงปริมาณแบบกว้างขึ้น | ดูลีดเดอร์บอร์ดรวม เช่น LLMBase ระบุว่า ranking ด้านคณิตของตนใช้ Artificial Analysis math index ซึ่งรวม AIME และ MATH 500[ |
| ทดสอบโจทย์คณิตขั้นสูงในรูปแบบอื่น | พิจารณา benchmark แบบ FrontierMath โดย Epoch AI ระบุว่า FrontierMath Tier 4 ให้โมเดลส่งฟังก์ชัน Python answer() สำหรับแต่ละคำถาม[ |
| ความน่าเชื่อถือกับงานจริง | สร้างชุดทดสอบส่วนตัว เพราะโจทย์ AIME เป็นสาธารณะและอาจอยู่ในข้อมูลฝึกของโมเดล[ |
วิธีทดสอบเองแบบไม่ซับซ้อน
หากคุณจะใช้ AI กับการเรียน การติวสอบ หรือระบบงานจริง อย่าเลือกจากอันดับอย่างเดียว ให้ใช้ benchmark เพื่อคัดรายชื่อก่อน แล้วทดสอบต่อด้วยโจทย์ของคุณเอง
ลองทำตามขั้นตอนนี้:
- เลือกโจทย์ใหม่ที่โมเดลไม่น่าจะเคยเห็น
- ให้ทุกโมเดลตอบโจทย์ชุดเดียวกัน
- บังคับให้ตอบทั้ง “คำตอบสุดท้าย” และ “วิธีทำ”
- ขอให้ตรวจคำตอบด้วยวิธีแทนค่า วิธีสำรอง หรือการคำนวณเชิงตัวเลขเมื่อทำได้
- จดข้อผิดพลาดด้านเหตุผล ไม่ใช่ดูแค่ว่าคำตอบสุดท้ายถูกหรือผิด
- เลือกโมเดลที่แม่น อธิบายรู้เรื่อง และเสถียรกับโจทย์แบบที่คุณใช้จริง
เหตุผลสำคัญคือ AI ที่เก่งโจทย์แข่งขันคำตอบสั้น อาจไม่ได้เหมาะที่สุดสำหรับการสอนเด็กให้เข้าใจทีละขั้น หรือการทำงานเชิงปริมาณที่ต้องใช้โค้ด ตารางข้อมูล และการตรวจสอบซ้ำหลายรอบ
สรุป
ถ้าถามแบบแคบว่า AI ตัวไหนนำบน benchmark AIME ของ Vals AI คำตอบคือ Gemini 3.1 Pro Preview ด้วยความแม่นยำ 98.13%[1]
แต่ถ้าถามว่า AI ตัวไหนเก่งคณิตที่สุดโดยรวม หลักฐานยังไม่สนับสนุนผู้ชนะเพียงรายเดียว โมเดลหัวตารางหลายตัวทำคะแนนใกล้กันมาก อันดับเปลี่ยนได้ตามลีดเดอร์บอร์ด และโจทย์ AIME เป็นข้อมูลสาธารณะที่มีความเสี่ยงเรื่องข้อมูลปนเปื้อน[1][
2][
4]
ดังนั้นคำตอบที่ใช้งานได้จริงที่สุดคือ: ใช้ leaderboard เพื่อคัดตัวเต็ง แล้วทดสอบด้วยโจทย์ใหม่ในรูปแบบที่คุณต้องใช้จริง ก่อนตัดสินใจว่าโมเดลไหน “เก่งคณิต” สำหรับคุณ




