| Kimi K2.6 | $0.60–$0.95 | $3.00–$4.00 | $0.10 | 262K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Grok 4.3 | $1.25 | $2.50 | $0.30 | 1M |
| DeepSeek V4-Flash | $0.14 | $0.28 | $0.0028 | 1M |
| DeepSeek V4-Pro | $0.435 (خصم دائم) | $0.87 (خصم دائم) | $0.0036 | 1M |
أهم النقاط حول التسعير:
المعايير لا تكون مفيدة إلا بوجود سياق. قمنا بتنظيم النتائج حسب ما تقيسه فعلاً — ذكاء عام، قدرة برمجية، وأداء وكيل — بدلاً من درجة مركبة واحدة غالباً ما تكون مضللة.
هذه الفئة تقيس المعرفة الخام، الرياضيات، والاستنتاج العلمي.
افتتح Claude Opus 4.8 فجوة صغيرة لكنها مؤثرة على GPT-5.5 في الذكاء العام، مدعوماً بقفزة هائلة قدرها 27.4 نقطة في أداء الرياضيات مقارنة بسابقه . يبرز Qwen3.7-Max كأفضل نموذج صيني، مقارباً للقادة في الاستنتاج العلمي على مستوى الدراسات العليا (GPQA Diamond)
.
المعايير الأكثر صلة بالمطورين.
| المعيار | DeepSeek V4-Pro | Kimi K2.6 | GPT-5.5 | Claude Opus 4.8 | Qwen3.7-Max |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.2% | 88.7% | 88.6% | 72.5% |
| SWE-bench Pro | ~58% | 58.6% | 58.6% | 69.2% | 60.6% |
| LiveCodeBench v6 | 93.5% | 89.6% | — | — | — |
أداء البرمجة يخلق انقساماً واضحاً. Claude Opus 4.8 و GPT-5.5 متعادلان في القمة لإصلاح الأخطاء العامة (SWE-bench Verified)، لكن كلود يأخذ زمام المبادرة بفارق أكثر من 10 نقاط على مجموعة Pro الأصعب بكثير . من حيث كفاءة البرمجة مقابل كل دولار، لا يُضاهى DeepSeek V4-Pro، حيث يقدم أداء برمجي بفئة GPT-5.4 بخصم 30 ضعفاً
.
قدرة النموذج على التصرف بشكل مستقل في بيئة حقيقية.
| المعيار | GPT-5.5 | Gemini 3.5 Flash | Claude Opus 4.8 | Qwen3.7-Max | Grok 4.3 |
|---|---|---|---|---|---|
| GDPval-AA Elo | 1769 | 1656 | 1890 | — | 1500 |
| Terminal-Bench 2.0/2.1 | 82.7% | 76.2% | 74.6% | 69.7% | — |
| τ²-Bench (اتباع التعليمات) | — | — | — | — | 98% |
يحتفظ GPT-5.5 بتاجه كأقوى نموذج لمهام الوكيل الطرفية المفتوحة، لكن تفوق Claude Opus 4.8 في تصنيف مهام العالم الحقيقي (GDPval-AA Elo) يشير إلى شريك وكيل أكثر موثوقية وجاهزية للأعمال . يقدم Grok 4.3 خياراً اقتصادياً مثالياً للمهام عالية الحجم والمتعلقة باتباع التعليمات
.
للمرة الأولى، النماذج الصينية لا تنافس فقط على السعر بل على القدرات. يتصدر Qwen3.7-Max جميع النماذج في معيار البرمجة الوكيلة SWE-bench Pro بنسبة 60.6% . أما Kimi K2.6 فيطابق أداء GPT-5.5 على نفس الاختبار ويتفوق على جميع النماذج الأخرى في "آخر امتحان للإنسانية" (HLE) بالأدوات بنسبة 54.0%
، متحدياً حدود التفوق الأمريكي في مهام الاستنتاج الأساسية بينما يخفض الأسعار بشكل كبير.
المقارنة المباشرة والكاملة بين جميع النماذج السبعة مستحيلة حالياً بسبب الإبلاغ الانتقائي للمعايير من قبل المزودين . عدة عوامل رئيسية تقوض الاختيار القائم على الأرقام فقط:
أولوياتك هي التي ستملي عليك اختيارك:
لأي نشر حساس، قم بإجراء اختبارات على عبء العمل الخاص بك. المعايير المبلغ عنها من المزودين تقدم نقطة بداية مفيدة، وليس إجابة قاطعة.
Comments
0 comments