الشرطة — تعني أن الدرجة غير موجودة في المصادر المذكورة لهذا النموذج، لا أن النموذج حصل على صفر. صفوف GPT-5.5 وGPT-5.5 Pro وClaude Opus 4.7 وDeepSeek-V4-Pro-Max تأتي في معظمها من مقارنة مشتركة واحدة، أما أرقام Kimi K2.6 فتأتي من مصادر Kimi منفصلة .
تصف OpenAI نموذج GPT-5.5 بأنه مبني للمهام المعقدة مثل البرمجة والبحث وتحليل البيانات . في المقارنة المشتركة المنشورة عبر VentureBeat، يحقق GPT-5.5 نتيجة 82.7% في Terminal-Bench 2.0، متقدماً على Claude Opus 4.7 عند 69.4% وDeepSeek-V4-Pro-Max عند 67.9%
. ويسجل أيضاً 93.6% في GPQA Diamond و58.6% في SWE-Bench Pro و84.4% في BrowseComp ضمن الجدول نفسه
.
التحفظ المهم هنا هو أن GPT-5.5 Pro نقطة مقارنة مختلفة. في الجدول نفسه، تصل نسخة Pro إلى 90.1% في BrowseComp و57.2% في Humanity’s Last Exam مع الأدوات، لكن لا ينبغي دمج هذه النتائج مع GPT-5.5 الأساسي عند مقارنة التكلفة أو زمن الاستجابة أو إعدادات النموذج .
لأغراض الشراء والتخطيط، تذكر BenchLM أن GPT-5.5 يملك نافذة سياق 1M، بينما يورد تقرير تسعير واحد سعراً قدره $5 لكل مليون توكن إدخال و$30 لكل مليون توكن إخراج . تعامل مع هذه الأرقام كإشارة أولية، لا كعرض سعر نهائي.
أقوى إشارات Claude Opus 4.7 في هذه المجموعة تأتي من معايير إصلاح البرمجيات. تسجل له LLM Stats نتيجة 87.6% في SWE-Bench Verified، بينما تعرض المقارنة المشتركة 64.3% في SWE-Bench Pro . ويتصدر أيضاً GPQA Diamond بـ94.2% وHumanity’s Last Exam بلا أدوات بـ46.9% وMCP Atlas بـ79.1% ضمن المقارنة المشتركة
.
تورد LLM Stats نافذة سياق 1M وتسعير $5/$25 لكل مليون توكن لـClaude Opus 4.7 . لكن قابلية المقارنة تحتاج حذراً: تشير Anthropic إلى أن بعض نتائج المعايير استخدمت تطبيقات داخلية أو إعدادات Harness محدثة، وأن بعض الدرجات ليست قابلة للمقارنة مباشرة مع لوحات الصدارة العامة
.
إذا كان شرطك الأساسي هو الأوزان المفتوحة، فـKimi K2.6 هو أبرز مرشح في المواد المذكورة. تغطية الإطلاق تصفه بأنه نموذج MoE مفتوح الأوزان بحجم 1T، مع 32B معلمة نشطة و384 خبيراً وتعدد وسائط أصلي وتكميم INT4 وسياق 256K . وتعرض بطاقة Hugging Face الخاصة به 80.2% في SWE-Bench Verified و58.6% في SWE-Bench Pro و66.7% في Terminal-Bench 2.0 و89.6 في LiveCodeBench v6
.
تذكر تغطية الإطلاق أيضاً نتيجة 54.0 في Humanity’s Last Exam مع الأدوات و83.2 في BrowseComp لـKimi K2.6 . أما LLM Stats فتسجله بسياق 262K وخانات سعر $0.95/$4.00 وتصنيف Open Source
. لكن يجب عدم الإفراط في تفسير الفروق الصغيرة، لأن أرقام Kimi لا تأتي من الجدول المشترك نفسه الذي يضم GPT-5.5 وClaude Opus 4.7 وDeepSeek-V4-Pro-Max
.
يظهر DeepSeek-V4-Pro-Max كمرشح قيمة أكثر من كونه الفائز الشامل في المعايير. تضعه LLM Stats بحجم 1.6T وسياق 1M ونتيجة 80.6% في SWE-Bench Verified وخانات تكلفة $1.74/$3.48 . وفي المقارنة المشتركة يسجل 90.1% في GPQA Diamond و37.7% في Humanity’s Last Exam بلا أدوات و48.2% مع الأدوات و67.9% في Terminal-Bench 2.0 و55.4% في SWE-Bench Pro و83.4% في BrowseComp و73.6% في MCP Atlas
.
هذه الأرقام تجعله خياراً جديراً بالاختبار عند حساسية الميزانية. لكن الجدول نفسه يضع GPT-5.5 أو GPT-5.5 Pro أو Claude Opus 4.7 في الصدارة في معظم الصفوف المذكورة، لذلك لا تتعامل مع DeepSeek كبديل جاهز للنماذج الأعلى تكلفة قبل اختباره على مهامك الفعلية .
لا تأتي أسعار النماذج ونوافذ السياق دائماً من المصدر نفسه أو من مزود الخدمة نفسه. استخدم الجدول التالي كإشارة للتخطيط، لا كعرض شراء نهائي.
لأن كل صف يقيس مهارة مختلفة. GPQA Diamond وHumanity’s Last Exam يركزان على الاستدلال الصعب، بينما تقيس Terminal-Bench 2.0 ونسخ SWE-Bench قدرات البرمجة والعمل البرمجي الوكيل، ويقيس BrowseComp أداءً أقرب إلى البحث والتصفح في المقارنة المشتركة . لذلك من الطبيعي أن يتقدم نموذج في صف ويتراجع في آخر.
حتى الاختبار الذي يحمل الاسم نفسه قد يعطي نتائج مختلفة بحسب طريقة التنفيذ. على سبيل المثال، تسجل LLM Stats لـClaude Opus 4.7 نتيجة 87.6% في SWE-Bench Verified، بينما تضعه LMCouncil عند 83.5% ± 1.7 ضمن إعدادها . كما تقول Anthropic إن بعض نتائجها استخدمت تطبيقات داخلية أو إعدادات Harness محدثة، ما يحد من المقارنة المباشرة مع لوحات الصدارة العامة
.
لهذا لا ينبغي أن تحسم فروق نقطة أو نقطتين قرار نشر إنتاجي. المعايير العامة جيدة لتقليص القائمة القصيرة، أما القرار النهائي فيجب أن يأتي من اختبارك أنت.
قبل الالتزام بنموذج واحد، اختبر أفضل مرشحين أو ثلاثة على مهام تشبه عملك الحقيقي.
إذا أردت قائمة قصيرة من الفئة الأعلى، اختبر GPT-5.5 وClaude Opus 4.7 جنباً إلى جنب: الأول يملك أقوى نتيجة مذكورة في Terminal-Bench 2.0، والثاني يملك أقوى نتائج مذكورة في SWE-Bench Pro وSWE-Bench Verified . إذا كان شرطك الأوزان المفتوحة، ابدأ بـKimi K2.6
. وإذا كانت التكلفة هي القيد الأساسي، فأدخل DeepSeek-V4-Pro-Max في الاختبار، لكن لا تعامله كبديل مباشر للنماذج المميزة قبل قياسه على مهامك أنت
.
Comments
0 comments