السؤال يبدو بسيطًا: ما أفضل ذكاء اصطناعي للرياضيات؟ لكن كلمة «الأفضل» هنا تحتاج تحديدًا. هل تقصد حل مسائل مسابقات قصيرة؟ شرح واجب مدرسي خطوة بخطوة؟ تدريبًا على أولمبياد الرياضيات؟ أم عملًا كميًا داخل منتج أو مشروع؟
إذا كان المقصود هو معيار AIME تحديدًا، فأوضح إجابة مدعومة بالمصادر المتاحة هي Gemini 3.1 Pro Preview؛ إذ تضعه Vals AI في صدارة هذا الاختبار بدقة 98.13%.[1] أما إذا كان السؤال عن أفضل مساعد رياضيات في كل الاستخدامات، فلا توجد إجابة واحدة محسومة.
المؤشر الأوضح: Gemini في AIME
للتوضيح، AIME وHMMT مسابقات رياضيات لطلاب المرحلة الثانوية تُستخدم الآن لاختبار قدرات نماذج الذكاء الاصطناعي في حل مسائل تنافسية.[2] وعلى معيار AIME لدى Vals AI، يتصدر Gemini 3.1 Pro Preview بدقة 98.13%.[
1]
لذلك، إذا كان سؤالك هو: أي نموذج يتصدر لوحة Vals AI في مسائل AIME؟ فالإجابة الأقوى سندًا هي Gemini 3.1 Pro Preview. لكن هذه النتيجة لا تعني تلقائيًا أنه أفضل نموذج لكل نوع من أنواع الرياضيات.
لماذا لا تكفي لوحة ترتيب واحدة؟
لوحات الترتيب لا تعطي دائمًا الاسم نفسه في الصدارة. فبينما تضع Vals AI نموذج Gemini 3.1 Pro Preview أولًا في معيار AIME، يعرض LLM Stats إدخالات بالمركز الأول لكل من GPT-5.2 Pro وGPT-5.2 على لوحة AIME 2025.[1][
4]
والصورة الأوسع أن نماذج الفئة المتقدمة أصبحت متقاربة جدًا في رياضيات المسابقات. يذكر BenchLM أن أفضل النماذج تتجاوز 95% في AIME 2025 وتتجاوز 90% في HMMT 2025.[2] عندما تصبح الفروق صغيرة إلى هذا الحد، قد يكون القرار العملي أقل ارتباطًا بفارق بسيط في النسبة، وأكثر ارتباطًا بجودة الشرح، والثبات، والسرعة، والتكلفة، ومدى ملاءمة النموذج لنوع المسائل التي ستعطيه إياها.
التحذير الأهم: الاختبارات العامة قد تكون ملوثة
AIME مفيد كمؤشر، لكنه ليس اختبارًا مثاليًا للتفكير الجديد. تنبه Vals AI إلى أن أسئلة AIME وأجوبتها متاحة علنًا، ما يخلق خطر أن تكون بعض النماذج قد تعرضت لها أثناء التدريب المسبق.[1]
وتذكر Vals AI أيضًا أن النماذج تميل إلى أداء أفضل على أسئلة 2024 الأقدم مقارنة بمجموعة 2025 الأحدث، وهو ما يثير أسئلة حول تلوث البيانات وقدرة النموذج على التعميم الحقيقي.[1] عمليًا، النتيجة العالية جدًا على AIME تعني قوة على هذا المعيار، لكنها لا تضمن الاعتمادية نفسها على مسائل جديدة أو خاصة أو غير مألوفة.
كيف تختار حسب حاجتك؟
| إذا كنت تحتاج إلى... | كيف تختار عمليًا |
|---|---|
| أقوى نتيجة مفردة في AIME ضمن هذه المصادر | ابدأ بـ Gemini 3.1 Pro Preview، لأن Vals AI تضعه أولًا في AIME بدقة 98.13%.[ |
| تدريب على رياضيات المسابقات | قارن نتائج AIME وHMMT معًا، إذ يذكر BenchLM أن أفضل النماذج تتجاوز 95% في AIME 2025 و90% في HMMT 2025.[ |
| ترتيب أوسع للتفكير الكمي | انظر إلى التصنيفات المركبة؛ فـ LLMBase يقول إن ترتيبه الرياضي يستخدم مؤشر Artificial Analysis للرياضيات، بما في ذلك AIME وMATH 500.[ |
| اختبارًا متقدمًا بصيغة مختلفة | راقب معايير مثل FrontierMath؛ إذ يتطلب FrontierMath Tier 4 من كل نموذج تقديم دالة Python باسم answer() لكل سؤال.[ |
| موثوقية في استخدام حقيقي | أنشئ اختبارًا صغيرًا خاصًا بك، خصوصًا أن أسئلة AIME العامة قد تكون ظهرت في بيانات التدريب.[ |
اختبارك الصغير أهم من الترتيب وحده
للمذاكرة، أو الدروس الخصوصية، أو التدريب على المسابقات، أو أي سير عمل يعتمد على الرياضيات، استخدم لوحات الترتيب لاختيار قائمة قصيرة من النماذج. بعد ذلك جرّبها بنفسك:
- أعطِ كل نموذج مجموعة المسائل الجديدة نفسها.
- اطلب الإجابة النهائية مع خطوات الحل، لا الرقم فقط.
- اطلب تحققًا عند الحاجة: تعويض في المعادلة، طريقة بديلة، أو فحصًا عدديًا.
- سجّل أخطاء المنطق، لا الأخطاء النهائية فقط.
- فضّل النموذج الذي يجمع بين الدقة، والشرح المفهوم، والثبات على نوع مسائلك الحقيقي.
هذا مهم لأن استخدامات الرياضيات مختلفة. النموذج الممتاز في مسائل مسابقات قصيرة قد لا يكون الأنسب لشرح المفاهيم لطالب، أو التعامل مع الرموز الجبرية، أو البراهين الطويلة، أو العمل الكمي المعتمد على الكود.
الخلاصة
إذا كان معيارك هو AIME لدى Vals AI، فالإجابة هي Gemini 3.1 Pro Preview بدقة 98.13%.[1] أما إذا كنت تسأل عن أفضل ذكاء اصطناعي للرياضيات عمومًا، فالأدلة لا تدعم وجود فائز عالمي واحد: نماذج المقدمة متقاربة في معايير المسابقات، وبعض لوحات الترتيب تضع نماذج أخرى في الصدارة، وعلنية أسئلة AIME تجعل الاختبار على مسائل جديدة خطوة ضرورية قبل منح الثقة الكاملة لأي ترتيب.[
1][
2][
4]




