| 80.2 |
| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
ملاحظة هامة حول أسعار DeepSeek: قامت DeepSeek بخصم ترويجي بنسبة 75% كان ساريًا حتى 31 مايو 2026، ليصل سعر الإخراج إلى $0.87. بعد انتهاء العرض الترويجي، تعود الأسعار إلى $1.74/$3.48 للإدخال/الإخراج
. يعكس الجدول أعلاه السعر الترويجي الساري.
البرمجة والمهام الوكيلة — تتقارب هذه النماذج الثلاثة بشكل كبير في اختبار SWE-Bench Verified (نطاق: 80.2–80.6). يتصدر Qwen3.7-Max في Terminal-Bench 2.0 (69.7) و SWE-Bench Pro (60.6)، بينما يهيمن DeepSeek V4 Pro Max على LiveCodeBench (93.5) وتقييم Codeforces (3206) — وهي أقوى نتائج البرمجة الأولية لأي نموذج تم اختباره . يتصدر Kimi K2.6 في SWE-Bench Pro (58.6) وهو الرائد في التقييمات المدعومة بالأدوات (HLE with tools بنسبة 54.0)
.
الاستدلال والمنطق — يسجل Qwen3.7-Max أعلى النتائج في مسابقات الرياضيات (HMMT 97.1%، GPQA Diamond 92.4%) . يتخلف DeepSeek قليلاً في HMMT (95.2%) و HLE (37.7%)
. يتألق Kimi K2.6 في مهام البحث العميق والاستدلال متعدد الخطوات المدعوم بالأدوات (DeepSearchQA 92.5 F1) بدلاً من الرياضيات البحتة
.
السعر والقيمة — يعتبر DeepSeek V4 Pro Max الأرخص بهامش كبير جدًا، خاصة مع الأوزان مفتوحة المصدر التي تتيح الاستضافة الذاتية . Qwen3.7-Max هو الأغلى، لكن Alibaba تقدم خصومات على المعالجة المجمّعة والذاكرة المخبأة
. يتوسط Kimi K2.6 بينهما من حيث السعر ولكنه يقدم نافذة سياق أصغر (256 ألف رمز فقط مقابل 1 مليون للنموذجين الآخرين)
.
Comments
0 comments