عند مقارنة نماذج مثل Claude Opus 4.7 وGPT-5.5 وDeepSeek V4 وKimi K2.6، من السهل أن تتحول الأرقام إلى سباق بسيط: من الأول؟ لكن القراءة الأدق تقول إن الترتيب العام وحده قد يضلل. النموذج الأفضل لاستدلال أكاديمي صعب ليس بالضرورة الأفضل لوكيل يتعامل مع الطرفية والمتصفح، والنموذج الأرخص في استدعاءات API الكثيفة قد لا يكون الأنسب لمراجعة كود حساسة.
أكمل جدول قابل للمراجعة يغطي DeepSeek V4-Pro-Max وGPT-5.5 / GPT-5.5 Pro وClaude Opus 4.7. أما Kimi K2.6 فبياناته موجودة، لكنها موزعة بين نافذة السياق وBrowseComp وSWE-Bench Pro وبطاقة Hugging Face واختبار عملي واحد للبرمجة؛ لذلك من الأفضل إدخاله في القائمة القصيرة للاختبار، لا حشره في ترتيب رباعي نهائي غير مكتمل.[4][
6][
10][
16][
22][
24]
الخلاصة العملية: أي نموذج تبدأ به؟
| السيناريو | ابدأ الاختبار بـ | لماذا؟ |
|---|---|---|
| الاستدلال الصعب والأسئلة بلا أدوات | Claude Opus 4.7 | في الجدول المشترك، سجل 94.2% في GPQA Diamond و46.9% في Humanity’s Last Exam بلا أدوات، وهما الأعلى في هذين البندين.[ |
| وكلاء الطرفية والمتصفح واستخدام الأدوات | GPT-5.5 / GPT-5.5 Pro | GPT-5.5 سجل 82.7% في Terminal-Bench 2.0، وGPT-5.5 Pro سجل 90.1% في BrowseComp، وكلاهما الأعلى في موضعه داخل الجدول.[ |
| هندسة البرمجيات | Claude Opus 4.7 أولًا، ثم GPT-5.5 وKimi K2.6 في اختبارك الداخلي | Claude Opus 4.7 سجل 64.3% في SWE-Bench Pro / SWE Pro، كما يورده LLM Stats بقيمة 0.64 مقابل 0.59 لكل من GPT-5.5 وKimi K2.6.[ |
| التكلفة الحساسة وكثرة استدعاءات API | DeepSeek V4 | DeepSeek V4-Pro-Max لا يتصدر بنود الجدول المشترك، لكن تقارير تذكر أن تكلفة DeepSeek تقارب سدس تكلفة أحدث النماذج الأميركية.[ |
| تجربة مسار Kimi أو بديل لوكلاء البرمجة | Kimi K2.6 | لدى Kimi K2.6 نتيجة 83.2% في BrowseComp وفق DocsBot، و0.59 في SWE-Bench Pro وفق LLM Stats، لكن لا يوجد جدول رباعي كامل من المصدر نفسه.[ |
| العمل بسياق طويل جدًا | Claude Opus 4.7 / GPT-5.5 | تقرير Tech/Yahoo يورد نافذة سياق قدرها مليون توكن لكل من GPT-5.5 وClaude Opus 4.7، بينما تورد Artificial Analysis أن Kimi K2.6 عند 256k توكن وClaude Opus 4.7 عند 1000k توكن.[ |
أكثر جدول Benchmark فائدة: Claude وGPT-5.5 وDeepSeek V4-Pro-Max
الأرقام التالية تأتي من جدول واحد، لذلك هي الأنسب للمقارنة المباشرة بين DeepSeek V4-Pro-Max وGPT-5.5 / GPT-5.5 Pro وClaude Opus 4.7. يظهر GPT-5.5 Pro في بعض البنود فقط، وليس في كل الصفوف.[4]
| الاختبار | DeepSeek V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | الأعلى في الجدول |
|---|---|---|---|---|---|
| GPQA Diamond | 90.1% | 93.6% | — | 94.2% | Claude Opus 4.7 [ |
| Humanity’s Last Exam، no tools | 37.7% | 41.4% | 43.1% | 46.9% | Claude Opus 4.7 [ |
| Humanity’s Last Exam، with tools | 48.2% | 52.2% | 57.2% | 54.7% | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 67.9% | 82.7% | — | 69.4% | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 55.4% | 58.6% | — | 64.3% | Claude Opus 4.7 [ |
| BrowseComp | 83.4% | 84.4% | 90.1% | 79.3% | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 73.6% | 75.3% | — | 79.1% | Claude Opus 4.7 [ |
قراءة هذا الجدول واضحة: Claude Opus 4.7 يتقدم في الاستدلال الصعب، والحل بلا أدوات، وهندسة البرمجيات، وMCP Atlas. في المقابل، تبدو عائلة GPT-5.5 أقوى في مهام الطرفية والمتصفح واستخدام الأدوات.[4] أما DeepSeek V4-Pro-Max فلا يحتل المركز الأول في أي بند من هذه المجموعة، لكنه قريب جدًا في BrowseComp: 83.4% مقابل 84.4% لـGPT-5.5، وأعلى من 79.3% لـClaude Opus 4.7.[
4]
أين يقف Kimi K2.6؟ أرقام واعدة، لكن ليست جدولًا رباعيًا كاملًا
مشكلة Kimi K2.6 ليست غياب البيانات، بل تفرقها بين مصادر وأنماط تشغيل ومجموعات مقارنة مختلفة. لذلك يمكن استخدام الأرقام التالية لتحديد هل يستحق الاختبار، لا لإعلانه فائزًا عامًا على النماذج الأربعة.[6][
10][
16][
22][
24]
| المؤشر | ما يظهر لـKimi K2.6 | بيانات مقارنة | القراءة العملية |
|---|---|---|---|
| نافذة السياق | 256k توكن | Claude Opus 4.7 مذكور في الصفحة نفسها عند 1000k توكن | نافذة Claude أطول بوضوح.[ |
| BrowseComp | 83.2% في Thinking mode | DeepSeek-V4 Pro عند 83.4% Pass@1 / Think Max | Kimi قريب جدًا من DeepSeek-V4 Pro في هذا المصدر، لكن المصدر نفسه لا يضم GPT-5.5 أو Claude Opus 4.7 في المقارنة.[ |
| AIME 2026 / APEX Agents | AIME 2026 عند 96.4%، وAPEX Agents عند 27.9% | DeepSeek-V4 Pro مذكور بأنه not available في هذين البندين | إشارة مفيدة إلى قدرات رياضيات ووكلاء، لكنها ليست مقارنة رباعية كاملة.[ |
| SWE-Bench Pro | 0.59 | Claude Opus 4.7 عند 0.64، وGPT-5.5 عند 0.59، وDeepSeek V4-Pro-Max عند 0.55 | في LLM Stats، يتساوى Kimi مع GPT-5.5، ويأتي دون Claude وفوق DeepSeek.[ |
| MMLU-Pro / SimpleQA-Verified | MMLU-Pro عند 87.1، وSimpleQA-Verified عند 36.9 | DS-V4-Pro Max عند 87.5 و57.9 على التوالي | يفيد في مقارنة Kimi مع DeepSeek، لكن صفوف Opus وGPT في الجدول نفسه تخص Opus-4.6 Max وGPT-5.4 xHigh، لا النسخ المطلوبة هنا.[ |
| اختبار برمجة عملي | 87 نقطة | Claude Opus 4.7 عند 97، وGPT-5.5 xHigh عند 96، وDeepSeek V4 Flash عند 78، وDeepSeek V4 Pro عند 69 | مرجع عملي مفيد، لكنه اختبار برمجة واحد ولا يغني عن اختبارات معيارية أو تقييم على مستودعاتك.[ |
الخلاصة بشأن Kimi K2.6: هو مرشح يستحق الدخول في القائمة القصيرة، خصوصًا إذا كنت تريد اختبار منظومة Kimi أو مسارًا بديلًا لوكلاء البرمجة. لكن الأدلة الحالية لا تكفي لإثبات أنه البطل العام بين النماذج الأربعة.[10][
16][
24]
السعر ونافذة السياق وتكلفة التشغيل
الاختبارات المعيارية تقيس القدرة، لكنها لا تكفي وحدها لاختيار نموذج في بيئة إنتاج. سعر توكنات الإدخال والإخراج، طول نافذة السياق، وحجم النموذج عند التفكير في الاستضافة الذاتية، كلها عوامل قد تغير القرار.
| النموذج | بيانات يمكن التحقق منها | دلالة الاختيار |
|---|---|---|
| GPT-5.5 | 5 دولارات لكل مليون توكن إدخال، و30 دولارًا لكل مليون توكن إخراج، مع نافذة سياق قدرها مليون توكن | سعر الإدخال مماثل لما يرد لـClaude Opus 4.7 في التقرير نفسه، لكن سعر الإخراج أعلى.[ |
| Claude Opus 4.7 | 5 دولارات لكل مليون توكن إدخال، و25 دولارًا لكل مليون توكن إخراج، مع نافذة سياق قدرها مليون توكن | في المصدر نفسه، سعر توكنات الإخراج أقل من GPT-5.5؛ كما تورد Artificial Analysis نافذة سياق 1000k توكن في صفحة المقارنة مع Kimi.[ |
| Kimi K2.6 | نافذة سياق 256k توكن | نافذة السياق أقصر من 1000k توكن المذكورة لـClaude Opus 4.7، ولا توفر المصادر هنا تسعير توكنات كافيًا للتحقق.[ |
| DeepSeek V4 | تقارير تذكر أن DeepSeek يقارب سدس تكلفة أحدث النماذج الأميركية؛ وتورد DataCamp أن DeepSeek V4 Pro يستخدم بنية Mixture of Experts، مع 1.6 تريليون معامل إجمالي و49 مليار معامل نشط وتنزيل بحجم 865 جيجابايت، بينما يبلغ DeepSeek V4 Flash نحو 284 مليار معامل إجمالي و13 مليار معامل نشط وتنزيلًا بحجم 160 جيجابايت | إذا كنت تستخدم API فقط، فإشارة التكلفة هي نقطة الجذب الكبرى. أما إذا كنت تفكر في نشر خاص أو استضافة ذاتية، فحجم النموذج ومتطلبات العتاد يدخلان بقوة في الحساب.[ |
أهم إشارة تكلفة هنا أن GPT-5.5 وClaude Opus 4.7 يردان بالسعر نفسه لتوكنات الإدخال، 5 دولارات لكل مليون توكن، لكن GPT-5.5 يرد بسعر 30 دولارًا لكل مليون توكن إخراج مقابل 25 دولارًا لـClaude Opus 4.7. في المقابل، يدخل DeepSeek النقاش من زاوية تكلفة تقارب السدس مقارنة بأحدث النماذج الأميركية.[20]
الاختيار بحسب المهمة
1. الاستدلال الصعب: ابدأ بـClaude Opus 4.7
إذا كانت المهمة أقرب إلى تحليل أكاديمي، حل مسائل بلا أدوات، أسئلة عالية الموثوقية، أو تفكيك مشكلة معقدة خطوة بخطوة، فـClaude Opus 4.7 هو الخيار الأول الذي يستحق الاختبار. في GPQA Diamond سجل 94.2%، مقابل 93.6% لـGPT-5.5 و90.1% لـDeepSeek V4-Pro-Max. وفي Humanity’s Last Exam بلا أدوات سجل 46.9%، وهي أعلى نتيجة في الجدول.[4]
2. الطرفية والمتصفح واستخدام الأدوات: جرّب GPT-5.5 / GPT-5.5 Pro أولًا
إذا كان الاستخدام يدور حول وكيل ينفذ أوامر في الطرفية، يتصفح الويب، يدير أدوات، أو يحل مهامًا مع أدوات خارجية، فالأرقام تميل إلى GPT-5.5. فقد سجل GPT-5.5 نتيجة 82.7% في Terminal-Bench 2.0، متقدمًا على Claude Opus 4.7 عند 69.4% وDeepSeek V4-Pro-Max عند 67.9%. كما سجل GPT-5.5 Pro نتيجة 90.1% في BrowseComp، وهي الأعلى في الجدول.[4]
3. هندسة البرمجيات: Claude يتقدم، لكن لا تتجاوز اختبارك الداخلي
في الجدول المشترك، يسجل Claude Opus 4.7 نتيجة 64.3% في SWE-Bench Pro / SWE Pro، مقابل 58.6% لـGPT-5.5 و55.4% لـDeepSeek V4-Pro-Max.[4] ويدعم LLM Stats الاتجاه نفسه تقريبًا: Claude Opus 4.7 عند 0.64، وكل من GPT-5.5 وKimi K2.6 عند 0.59، وDeepSeek V4-Pro-Max عند 0.55.[
24]
مع ذلك، اختبارات البرمجة شديدة الحساسية لطبيعة المستودع، ولغة البرمجة، ونظام الاختبار، وطريقة تشغيل الوكيل، وصياغة التعليمات. اختبار عملي واحد للبرمجة يورد Claude Opus 4.7 عند 97، وGPT-5.5 xHigh عند 96، وKimi K2.6 عند 87، وDeepSeek V4 Flash عند 78، وDeepSeek V4 Pro عند 69؛ هذه أرقام مفيدة للاستئناس، لكنها لا ينبغي أن تكون وحدها قرار الإنتاج.[16]
4. كثافة استدعاءات API والتكلفة: DeepSeek V4 يستحق الاختبار المبكر
إذا كان عنق الزجاجة هو تكلفة التوكنات، وكانت المهمة لا تتطلب أن يتصدر النموذج كل اختبار، فـDeepSeek V4 مرشح منطقي. في الجدول المشترك يقترب DeepSeek V4-Pro-Max من نماذج الصف الأول في بعض البنود دون أن يتصدرها، وفي الوقت نفسه تذكر تقارير أن DeepSeek يقارب سدس تكلفة أحدث النماذج الأميركية.[4][
20]
لكن إن لم تكن ستستخدم خدمة API جاهزة، فالحساب يتغير. تورد DataCamp أن نسخة DeepSeek V4 Pro تضم 1.6 تريليون معامل إجماليًا و49 مليار معامل نشطًا وحجم تنزيل 865 جيجابايت.[13] هذا يعني أن تكاليف العتاد والتنزيل والاستدلال والتشغيل اليومي يجب أن تدخل في التقييم، لا سعر التوكن وحده.
5. Kimi K2.6: ضعه في القائمة القصيرة، ثم أعد الاختبار على مهامك
لدى Kimi K2.6 إشارات تستحق الانتباه: DocsBot يورد نتيجته في BrowseComp عند 83.2%، قريبة جدًا من 83.4% لـDeepSeek-V4 Pro في الصفحة نفسها؛ وLLM Stats يورده عند 0.59 في SWE-Bench Pro، مساويًا لـGPT-5.5؛ كما يورده اختبار برمجة عملي عند 87 نقطة.[10][
16][
24]
لكن بسبب غياب جدول كامل، من المصدر نفسه وبالإعدادات نفسها، يضم Claude Opus 4.7 وGPT-5.5 وDeepSeek V4-Pro-Max وKimi K2.6 معًا، فالموقف الأكثر أمانًا هو اعتباره مرشحًا عالي الاحتمال، لا فائزًا مثبتًا في المقارنة الرباعية.[10][
24]
حدود يجب الانتباه لها قبل قراءة الترتيب
- Kimi K2.6 لا يملك جدولًا رباعيًا كاملًا هنا. أفضل جدول مشترك يغطي DeepSeek V4-Pro-Max وGPT-5.5 / GPT-5.5 Pro وClaude Opus 4.7، بينما تأتي بيانات Kimi من DocsBot وArtificial Analysis وLLM Stats وبطاقة Hugging Face واختبار برمجة واحد.[
4][
6][
10][
16][
22][
24]
- أسماء الإصدارات وأنماط التشغيل ليست موحدة. تظهر في المصادر تسميات مثل GPT-5.5 Pro وGPT-5.5 xHigh وDeepSeek-V4 Pro وDeepSeek V4-Pro-Max وKimi Thinking وClaude Opus 4.7 Adaptive Reasoning / Max Effort؛ لا ينبغي اعتبارها إعدادًا واحدًا مطابقًا.[
4][
6][
10][
16][
22]
- تنسيقات النتائج تختلف بين المنصات. الجدول المشترك يعرض SWE-Bench Pro / SWE Pro كنسب مئوية، بينما يعرض LLM Stats SWE-Bench Pro بصيغة 0.xx؛ القراءة الأصح هي مقارنة الترتيب داخل المصدر نفسه أولًا، ثم تشغيل تقييمك الخاص.[
4][
24]
- بيانات التسعير غير متساوية. لدى GPT-5.5 وClaude Opus 4.7 أسعار إدخال وإخراج واضحة في التقرير المذكور، بينما يظهر DeepSeek غالبًا عبر إشارة تكلفة السدس تقريبًا، ولا توجد في المصادر هنا بيانات تسعير كافية يمكن التحقق منها لـKimi K2.6.[
6][
20]
الحكم النهائي
إذا أردت جملة واحدة: Claude Opus 4.7 يتصدر الاستدلال الصعب ومعايير هندسة البرمجيات المتاحة؛ GPT-5.5 / GPT-5.5 Pro يتقدمان في مهام الأدوات والطرفية والمتصفح؛ DeepSeek V4-Pro-Max يقدم معادلة قدرة قريبة مع إشارة تكلفة قوية؛ وKimi K2.6 واعد، لكنه يحتاج إلى أدلة رباعية أكثر اكتمالًا قبل إعلان تفوق عام.[4][
10][
20][
24]
أما القرار الحقيقي فلا يصدر من جدول عام فقط. شغّل النماذج الأربعة على المستودعات نفسها، تذاكر الأخطاء نفسها، سير عمل البحث نفسه، أذونات الأدوات نفسها، طول السياق نفسه، وميزانية التوكن نفسها. عندها فقط تتحول أرقام Benchmark من مادة مقارنة إلى قرار منتج قابل للدفاع عنه.




