| SWE-Bench Verified (حل مشاكل حقيقية) | ~83% (مقدرة) | 87.6% | 85.0% | 82.1% | 81.0% | 80.6% |
| Terminal-Bench 2.0/2.1 (برمجة طرفية) | 74.6% | 66.1–69.4% | 78.2–82.7% | 76.2% | 68.5% | 65.0% |
| OSWorld-Verified (استخدام الحاسوب) | 83.4% | 82.8% | 78.7% | 75.0% | 72.1% | 70.5% |
| GDPval-AA (عمل معرفي/إيلو وكيل) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| امتحان البشرية الأخير (باستخدام الأدوات) | 57.9% | 54.7% | — | — | — | — |
| امتحان البشرية الأخير (بدون أدوات) | 49.8% | — | — | — | — | — |
| GPQA Diamond (علوم متقدمة) | ~94% (مقدرة) | 94.2% | 96.0% | 92.4% | 90.1–91.5% | 95.1% |
| ARC-AGI-2 (منطق مجرد) | ~80% (مقدرة) | 80.2% | 85.0% | 75.8% | 76.1% | 74.0% |
| MCP Atlas (موثوقية استخدام الأدوات) | — | 77.3% | 79.1% | 83.6% | 74.2% | 71.5% |
| مؤشر AA للذكاء (v4.0) | ~59–60 (مقدرة) | 59 | 60 | 57 | 53 | 55 |
| Finance Agent v2 (وكيل مالي) | 53.9% | 51.5% | — | — | — | — |
| LiveCodeBench (Pass@1) | — | — | ~91–92% (مقدرة) | — | — | 93.5% |
| Codeforces ELO (برمجة تنافسية) | — | ~3050 (مقدرة) | 3168 | — | — | 3206 |
| FrontierMath (مستويات 1–3) | — | 43.8% | 51.7% | — | — | — |
| MMLU-Pro | — | — | — | — | — | 87.5% |
| AIME 2025 (رياضيات) | — | — | 95.2% | — | — | — |
| BrowseComp | — | 79.3% | 84.4% | — | — | — |
* نتائج SWE-Bench Pro لكل من جيميناي 3.5 فلاش، غروك 4.3، و DeepSeek V4 Pro مأخوذة من اختبار واحد لجهة خارجية - بينما تظهر بيانات جوجل الرسمية أرقاماً مختلفة (انظر الملاحظات أدناه).
أحدث إبداعات شركة أنثروبيك يتصدر بقوة في البرمجة الوكيلة (SWE-Bench Pro) بنسبة 69.2%، والعمل المعرفي (1890 إيلو)، والتحكم بالحاسوب بنسبة 83.4%، والمنطق متعدد التخصصات (امتحان البشرية الأخير)، والتحليل المالي . يحتل المرتبة الثانية عالمياً بدرجة مركبة تبلغ 93/100
.
نموذج أوبن إيه آي هو الأقوى في البرمجة الطرفية (Terminal-Bench) بنسبة تصل إلى 82.7%، والمنطق البصري المجرد (ARC-AGI-2) بنسبة 85%، والعلوم المتقدمة (GPQA Diamond) عند 96%، والرياضيات المتطورة (FrontierMath)، ومؤشر الذكاء AA بقيمة 60 .
يتصدر جوجل في موثوقية استخدام الأدوات (MCP Atlas) بنسبة 83.6%، مع سرعة إخراج خارقة تصل إلى ~289 رمز/ثانية، أسرع بأربعة أضعاف من أي نموذج آخر في هذه المقارنة، وكل ذلك بأقل تكلفة . نموذج مثالي للتطبيقات التي تتطلب حجماً كبيراً وسرعة فائقة.
يتفوق في مسابقات البرمجة بتصنيف Codeforces ELO 3206 و LiveCodeBench بنسبة 93.5%، وينافس كلود في SWE-bench Verified بنتيجة 80.6%، وكل ذلك بجزء بسيط من التكلفة . خيار لا يهزم لمن يبحث عن القيمة مقابل المال في مهام البرمجة.
Comments
0 comments