تبدو جداول المعايير أحياناً كأنها سباق واحد: أعلى رقم يعني أفضل نموذج. في هذه المقارنة تحديداً، هذه قراءة ناقصة. أقرب مقارنة مشتركة في المصادر تغطي GPT-5.5 وGPT-5.5 Pro وClaude Opus 4.7 وDeepSeek-V4-Pro-Max، بينما تأتي أرقام Kimi K2.6 من مصادر منفصلة متعلقة بإطلاق Kimi وبطاقة النموذج ولوحات الصدارة [1][
6][
24]. لذلك فالسؤال العملي ليس: من الفائز المطلق؟ بل: أي نموذج تضعه أولاً في اختبارك الداخلي؟
ملاحظة تسمية مهمة: عند الحديث عن DeepSeek V4، يستخدم هذا المقال اسم DeepSeek-V4-Pro-Max لأنه المتغير الذي تظهر له صفوف معايير وتكلفة في المصادر المتاحة [18][
24]. كذلك لا يدمج المقال أرقام GPT-5.5 Pro مع GPT-5.5 الأساسي عندما تفصل المصادر بينهما [
24].
الخلاصة السريعة حسب نوع العمل
- وكلاء البرمجة داخل الطرفية وسطر الأوامر: GPT-5.5 لديه أقوى نتيجة مذكورة في Terminal-Bench 2.0 ضمن المقارنة المشتركة، عند 82.7% [
24].
- إصلاح البرمجيات ومهام المستودعات: Claude Opus 4.7 يتصدر صف SWE-Bench Pro المذكور بـ64.3% وصف SWE-Bench Verified المذكور بـ87.6% [
18][
24].
- الاستدلال الصعب من دون أدوات: Claude Opus 4.7 يتقدم في GPQA Diamond وHumanity’s Last Exam بلا أدوات ضمن المقارنة المشتركة [
24].
- الاستدلال مع الأدوات والتصفح: GPT-5.5 Pro يتصدر Humanity’s Last Exam مع الأدوات بـ57.2% وBrowseComp بـ90.1% في الصفوف التي يظهر فيها هذا المتغير منفصلاً [
24].
- النشر بأوزان مفتوحة: Kimi K2.6 هو المرشح الأوضح في المصادر المتاحة؛ إذ يوصف كنموذج خليط خبراء MoE مفتوح الأوزان بحجم 1T، مع 32B معلمة نشطة ونافذة سياق 256K [
1].
- الاستدلال المستضاف الحساس للتكلفة: DeepSeek-V4-Pro-Max هو خيار القيمة الذي يستحق التحقق؛ إذ تسجل له LLM Stats سياق 1M ونتيجة 80.6% في SWE-Bench Verified وخانات تكلفة $1.74/$3.48 [
18].
جدول المقارنة بين المعايير
الشرطة — تعني أن الدرجة غير موجودة في المصادر المذكورة لهذا النموذج، لا أن النموذج حصل على صفر. صفوف GPT-5.5 وGPT-5.5 Pro وClaude Opus 4.7 وDeepSeek-V4-Pro-Max تأتي في معظمها من مقارنة مشتركة واحدة، أما أرقام Kimi K2.6 فتأتي من مصادر Kimi منفصلة [1][
6][
24].
| الاختبار | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | — | 94.2% [ | ≈91% [ | 90.1% [ |
| Humanity’s Last Exam، بلا أدوات | 41.4% [ | 43.1% [ | 46.9% [ | — | 37.7% [ |
| Humanity’s Last Exam، مع أدوات | 52.2% [ | 57.2% [ | 54.7% [ | 54.0% [ | 48.2% [ |
| Terminal-Bench 2.0 | 82.7% [ | — | 69.4% [ | 66.7% [ | 67.9% [ |
| SWE-Bench Pro | 58.6% [ | — | 64.3% [ | 58.6% [ | 55.4% [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.2% [ | 83.4% [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | — | 79.1% [ | — | 73.6% [ |
| SWE-Bench Verified | — | — | 87.6% [ | 80.2% [ | 80.6% [ |
أي نموذج تختبر أولاً؟
| الأولوية | ابدأ بـ | السبب العملي |
|---|---|---|
| وكلاء برمجة يعملون عبر الطرفية | GPT-5.5 | يملك أعلى نتيجة Terminal-Bench 2.0 في المقارنة المشتركة، عند 82.7% [ |
| إصلاح البرمجيات | Claude Opus 4.7 | يتصدر صف SWE-Bench Pro وصف SWE-Bench Verified المذكورين بين هذه النماذج [ |
| استدلال صعب بلا أدوات | Claude Opus 4.7 | يتقدم في GPQA Diamond وHumanity’s Last Exam بلا أدوات ضمن المقارنة المشتركة [ |
| استدلال مع أدوات أو تصفح | GPT-5.5 Pro | يتصدر Humanity’s Last Exam مع الأدوات وBrowseComp حيث تظهر نسخة Pro منفصلة [ |
| نشر بأوزان مفتوحة | Kimi K2.6 | يوصف كنموذج MoE مفتوح الأوزان بحجم 1T، وتعرض بطاقة Hugging Face الخاصة به صفوفاً قوية في معايير البرمجة [ |
| استدلال مستضاف بتكلفة أقل | DeepSeek-V4-Pro-Max | تسجل له LLM Stats سياق 1M و80.6% في SWE-Bench Verified وخانات تكلفة أقل من صف Claude Opus 4.7 في اللوحة نفسها [ |
| احتياج سياق طويل | GPT-5.5 أو Claude Opus 4.7 أو DeepSeek-V4-Pro-Max | المصادر تذكر سياق 1M لهذه النماذج الثلاثة، بينما يظهر Kimi K2.6 حول 256K إلى 262K [ |
ملاحظات على كل نموذج
GPT-5.5
تصف OpenAI نموذج GPT-5.5 بأنه مبني للمهام المعقدة مثل البرمجة والبحث وتحليل البيانات [38]. في المقارنة المشتركة المنشورة عبر VentureBeat، يحقق GPT-5.5 نتيجة 82.7% في Terminal-Bench 2.0، متقدماً على Claude Opus 4.7 عند 69.4% وDeepSeek-V4-Pro-Max عند 67.9% [
24]. ويسجل أيضاً 93.6% في GPQA Diamond و58.6% في SWE-Bench Pro و84.4% في BrowseComp ضمن الجدول نفسه [
24].
التحفظ المهم هنا هو أن GPT-5.5 Pro نقطة مقارنة مختلفة. في الجدول نفسه، تصل نسخة Pro إلى 90.1% في BrowseComp و57.2% في Humanity’s Last Exam مع الأدوات، لكن لا ينبغي دمج هذه النتائج مع GPT-5.5 الأساسي عند مقارنة التكلفة أو زمن الاستجابة أو إعدادات النموذج [24].
لأغراض الشراء والتخطيط، تذكر BenchLM أن GPT-5.5 يملك نافذة سياق 1M، بينما يورد تقرير تسعير واحد سعراً قدره $5 لكل مليون توكن إدخال و$30 لكل مليون توكن إخراج [27][
36]. تعامل مع هذه الأرقام كإشارة أولية، لا كعرض سعر نهائي.
Claude Opus 4.7
أقوى إشارات Claude Opus 4.7 في هذه المجموعة تأتي من معايير إصلاح البرمجيات. تسجل له LLM Stats نتيجة 87.6% في SWE-Bench Verified، بينما تعرض المقارنة المشتركة 64.3% في SWE-Bench Pro [18][
24]. ويتصدر أيضاً GPQA Diamond بـ94.2% وHumanity’s Last Exam بلا أدوات بـ46.9% وMCP Atlas بـ79.1% ضمن المقارنة المشتركة [
24].
تورد LLM Stats نافذة سياق 1M وتسعير $5/$25 لكل مليون توكن لـClaude Opus 4.7 [16]. لكن قابلية المقارنة تحتاج حذراً: تشير Anthropic إلى أن بعض نتائج المعايير استخدمت تطبيقات داخلية أو إعدادات Harness محدثة، وأن بعض الدرجات ليست قابلة للمقارنة مباشرة مع لوحات الصدارة العامة [
17].
Kimi K2.6
إذا كان شرطك الأساسي هو الأوزان المفتوحة، فـKimi K2.6 هو أبرز مرشح في المواد المذكورة. تغطية الإطلاق تصفه بأنه نموذج MoE مفتوح الأوزان بحجم 1T، مع 32B معلمة نشطة و384 خبيراً وتعدد وسائط أصلي وتكميم INT4 وسياق 256K [1]. وتعرض بطاقة Hugging Face الخاصة به 80.2% في SWE-Bench Verified و58.6% في SWE-Bench Pro و66.7% في Terminal-Bench 2.0 و89.6 في LiveCodeBench v6 [
6].
تذكر تغطية الإطلاق أيضاً نتيجة 54.0 في Humanity’s Last Exam مع الأدوات و83.2 في BrowseComp لـKimi K2.6 [1]. أما LLM Stats فتسجله بسياق 262K وخانات سعر $0.95/$4.00 وتصنيف Open Source [
11]. لكن يجب عدم الإفراط في تفسير الفروق الصغيرة، لأن أرقام Kimi لا تأتي من الجدول المشترك نفسه الذي يضم GPT-5.5 وClaude Opus 4.7 وDeepSeek-V4-Pro-Max [
1][
6][
24].
DeepSeek-V4-Pro-Max
يظهر DeepSeek-V4-Pro-Max كمرشح قيمة أكثر من كونه الفائز الشامل في المعايير. تضعه LLM Stats بحجم 1.6T وسياق 1M ونتيجة 80.6% في SWE-Bench Verified وخانات تكلفة $1.74/$3.48 [18]. وفي المقارنة المشتركة يسجل 90.1% في GPQA Diamond و37.7% في Humanity’s Last Exam بلا أدوات و48.2% مع الأدوات و67.9% في Terminal-Bench 2.0 و55.4% في SWE-Bench Pro و83.4% في BrowseComp و73.6% في MCP Atlas [
24].
هذه الأرقام تجعله خياراً جديراً بالاختبار عند حساسية الميزانية. لكن الجدول نفسه يضع GPT-5.5 أو GPT-5.5 Pro أو Claude Opus 4.7 في الصدارة في معظم الصفوف المذكورة، لذلك لا تتعامل مع DeepSeek كبديل جاهز للنماذج الأعلى تكلفة قبل اختباره على مهامك الفعلية [24].
إشارات السياق والتكلفة
لا تأتي أسعار النماذج ونوافذ السياق دائماً من المصدر نفسه أو من مزود الخدمة نفسه. استخدم الجدول التالي كإشارة للتخطيط، لا كعرض شراء نهائي.
| النموذج | إشارة السياق والتكلفة في المصادر | القراءة العملية |
|---|---|---|
| GPT-5.5 | BenchLM تذكر سياق 1M؛ وتقرير تسعير واحد يورد $5 للإدخال و$30 للإخراج لكل مليون توكن [ | خيار مستضاف من الفئة العليا؛ تحقق من السعر المباشر قبل الميزانية. |
| Claude Opus 4.7 | LLM Stats تذكر سياق 1M وتسعير $5/$25 لكل مليون توكن [ | خيار قوي للبرمجة والاستدلال والمهام ذات السياق الطويل. |
| Kimi K2.6 | تغطية الإطلاق تذكر سياق 256K؛ وLLM Stats تذكر 262K وخانات سعر $0.95/$4.00 [ | مرشح قوي للأوزان المفتوحة؛ قارنه بحسب بيئة التشغيل التي ستستخدمها. |
| DeepSeek-V4-Pro-Max | LLM Stats تذكر سياق 1M وحجم 1.6T و80.6% في SWE-Bench Verified وخانات تكلفة $1.74/$3.48 [ | مرشح قيمة قوي إذا حافظ على الجودة في عبء عملك. |
لماذا تختلف التصنيفات؟
لأن كل صف يقيس مهارة مختلفة. GPQA Diamond وHumanity’s Last Exam يركزان على الاستدلال الصعب، بينما تقيس Terminal-Bench 2.0 ونسخ SWE-Bench قدرات البرمجة والعمل البرمجي الوكيل، ويقيس BrowseComp أداءً أقرب إلى البحث والتصفح في المقارنة المشتركة [24]. لذلك من الطبيعي أن يتقدم نموذج في صف ويتراجع في آخر.
حتى الاختبار الذي يحمل الاسم نفسه قد يعطي نتائج مختلفة بحسب طريقة التنفيذ. على سبيل المثال، تسجل LLM Stats لـClaude Opus 4.7 نتيجة 87.6% في SWE-Bench Verified، بينما تضعه LMCouncil عند 83.5% ± 1.7 ضمن إعدادها [18][
30]. كما تقول Anthropic إن بعض نتائجها استخدمت تطبيقات داخلية أو إعدادات Harness محدثة، ما يحد من المقارنة المباشرة مع لوحات الصدارة العامة [
17].
لهذا لا ينبغي أن تحسم فروق نقطة أو نقطتين قرار نشر إنتاجي. المعايير العامة جيدة لتقليص القائمة القصيرة، أما القرار النهائي فيجب أن يأتي من اختبارك أنت.
كيف تختبر القائمة القصيرة؟
قبل الالتزام بنموذج واحد، اختبر أفضل مرشحين أو ثلاثة على مهام تشبه عملك الحقيقي.
- استخدم مطالبات وملفات ومستودعات واقعية. مطالبات المعايير لا تمثل دائماً قاعدة كودك أو وثائقك أو سياساتك أو سلوك المستخدمين لديك.
- وحّد بيئة الأدوات. نتائج وكلاء البرمجة قد تتغير عندما يتاح للنموذج الطرفية أو التصفح أو الاسترجاع أو سياق المستودع أو واجهات API داخلية.
- قس التكلفة وزمن الاستجابة بالإعدادات نفسها. أوضاع Pro ومستويات الجهد الأعلى قد تغير الجودة واستهلاك التوكنات والمدة.
- راجع الإخفاقات يدوياً. في مهام البرمجة، افحص الاختبارات والفروق في الكود وقابلية الصيانة والثغرات والاعتماديات المتخيلة.
- أدخل منافساً أقل تكلفة في الاختبار. إذا كانت الأوزان المفتوحة أو تكلفة الاستدلال مهمة، يستحق Kimi K2.6 وDeepSeek-V4-Pro-Max مكاناً في القائمة القصيرة [
1][
18].
الخلاصة النهائية
إذا أردت قائمة قصيرة من الفئة الأعلى، اختبر GPT-5.5 وClaude Opus 4.7 جنباً إلى جنب: الأول يملك أقوى نتيجة مذكورة في Terminal-Bench 2.0، والثاني يملك أقوى نتائج مذكورة في SWE-Bench Pro وSWE-Bench Verified [18][
24]. إذا كان شرطك الأوزان المفتوحة، ابدأ بـKimi K2.6 [
1][
6]. وإذا كانت التكلفة هي القيد الأساسي، فأدخل DeepSeek-V4-Pro-Max في الاختبار، لكن لا تعامله كبديل مباشر للنماذج المميزة قبل قياسه على مهامك أنت [
18][
24].




