| استدلال مع أدوات | GPT-5.5 Pro | تصدر Humanity’s Last Exam مع الأدوات بـ57.2%، أمام Claude Opus 4.7 عند 54.7% |
| سطر الأوامر والوكلاء البرمجيون | GPT-5.5 | حقق 82.7% في Terminal-Bench 2.0، بفارق واضح عن Claude Opus 4.7 عند 69.4% وDeepSeek-V4-Pro-Max عند 67.9% |
| تشغيل بيئات نظام التشغيل | GPT-5.5 | تقدم بفارق صغير على OSWorld-Verified: 78.7% مقابل 78.0% لـClaude Opus 4.7 |
| رياضيات FrontierMath | GPT-5.5 | سجل 51.7% في FrontierMath Tiers 1–3 مقابل 43.8% لـClaude Opus 4.7 |
| هندسة البرمجيات في الجدول المشترك | Claude Opus 4.7 | تصدر SWE-Bench Pro / SWE Pro بـ64.3%، مقابل 58.6% لـGPT-5.5 و55.4% لـDeepSeek-V4-Pro-Max |
| التصفح وفهم الويب | GPT-5.5 Pro | تصدر BrowseComp بـ90.1%، أمام GPT-5.5 عند 84.4% وDeepSeek-V4-Pro-Max عند 83.4% وClaude Opus 4.7 عند 79.3% |
| سير عمل أدوات عامة بنمط MCP Atlas | Claude Opus 4.7 | سجل 79.1% في MCP Atlas / MCPAtlas Public، أمام GPT-5.5 عند 75.3% وDeepSeek-V4-Pro-Max عند 73.6% |
| الرؤية وتحليل الوثائق | Claude Opus 4.7 | ورد أنه رقم 1 في Vision & Document Arena، مع تفوق في فئات الرسوم التخطيطية، والواجبات، والتعرف الضوئي على الحروف OCR |
| الحساسية للتكلفة | DeepSeek V4 | ذكرت VentureBeat أنه يقدم ذكاء قريباً من مستوى أحدث النماذج بتكلفة تقارب سدس تكلفة Opus 4.7 وGPT-5.5، لكن ذلك يحتاج اختباراً على عبء العمل الفعلي |
| أقل مقارنة رباعية نظافة | Kimi K2.6 | أرقامه مفيدة، لكنها تأتي غالباً من مقارنات منفصلة لا تضم دائماً GPT-5.5 وClaude Opus 4.7 وDeepSeek-V4-Pro-Max في الإعداد نفسه |
أي صف يجمع أرقاماً من مصادر مختلفة يجب قراءته بحذر. نتيجة Kimi المنشورة في مقارنة منفصلة مفيدة كإشارة أولية، لكنها ليست بالقوة نفسها التي تمنحها نتيجة صادرة من الجدول نفسه وبالأداة التقييمية نفسها للنماذج الأخرى .
أوضح فوز لـGPT-5.5 يظهر في Terminal-Bench 2.0: فقد سجل 82.7% مقابل 69.4% لـClaude Opus 4.7 و67.9% لـDeepSeek-V4-Pro-Max في الجدول المشترك . هذا من أكبر الفوارق في مجموعة النتائج المتاحة.
يتقدم GPT-5.5 أيضاً على Claude Opus 4.7 في OSWorld-Verified، لكن بفارق ضيق جداً: 78.7% مقابل 78.0% . أما في FrontierMath Tiers 1–3 فالفارق أوضح: 51.7% لـGPT-5.5 مقابل 43.8% لـClaude
.
عند إدخال الأدوات أو التصفح، تتغير الصورة لصالح GPT-5.5 Pro. فهو يتصدر Humanity’s Last Exam مع الأدوات بـ57.2%، أمام Claude Opus 4.7 عند 54.7%، وGPT-5.5 عند 52.2%، وDeepSeek-V4-Pro-Max عند 48.2% . ويتصدر أيضاً BrowseComp بـ90.1%، أمام GPT-5.5 عند 84.4%، وDeepSeek-V4-Pro-Max عند 83.4%، وClaude Opus 4.7 عند 79.3%
.
لكن GPT-5.5 لا يفوز بكل اختبارات الاستدلال. Claude Opus 4.7 يتفوق عليه بفارق 0.6 نقطة فقط في GPQA Diamond، إذ سجل 94.2% مقابل 93.6% . وهناك أرقام قطاعية خاصة بـGPT-5.5، مثل 91.7% على Harvey BigLaw Bench، و88.5% في معيار داخلي للاستثمار المصرفي، و80.5% على BixBench، لكنها لا تصلح لإعلان فائز رباعي لأن المقتطف لا يعرض نتائج النماذج الأخرى على الاختبارات نفسها
.
في الجدول المشترك الرئيسي، يقدم Claude Opus 4.7 أفضل صورة للاستدلال من دون أدوات. فهو يتصدر GPQA Diamond بـ94.2%، ويتصدر Humanity’s Last Exam بلا أدوات بـ46.9% . ويتقدم أيضاً في SWE-Bench Pro / SWE Pro بـ64.3%، وفي MCP Atlas / MCPAtlas Public بـ79.1% ضمن الجدول نفسه
.
نقطة ضعفه الأوضح في البيانات المتاحة هي مهام الطرفية. GPT-5.5 يتقدم عليه بأكثر من 13 نقطة في Terminal-Bench 2.0، كما يتقدم عليه في OSWorld-Verified وFrontierMath Tiers 1–3 .
أما في الرؤية والوثائق، فالإشارة الأقوى لصالح Claude. يذكر أحد المصادر أن Claude Opus 4.7 احتل المركز الأول في Vision & Document Arena، مع تحسن قدره 4 نقاط على Opus 4.6 في Document Arena، وانتصارات فرعية في الرسوم التخطيطية، والواجبات، وOCR . لكن المصدر نفسه لا يقدم أرقاماً مقابلة لـGPT-5.5 أوDeepSeek V4 أوKimi K2.6 في هذا الاختبار، لذلك تدعم هذه النتيجة قوة Claude في الوثائق ولا تكفي وحدها لترتيب رباعي كامل في القدرات متعددة الوسائط
.
تستخدم المصادر أكثر من تسمية لعائلة DeepSeek. الجدول المشترك يورد DeepSeek-V4-Pro-Max، بينما تورد مقارنة Artificial Analysis تسمية DeepSeek V4 Pro مع نافذة سياق قدرها 1,000k توكن . لذلك لا ينبغي التعامل مع التسميتين كأنهما متطابقتان تلقائياً.
في الجدول المشترك، DeepSeek-V4-Pro-Max منافس لكنه لا يتصدر أي صف. نتائجه هي 90.1% على GPQA Diamond، و37.7% على Humanity’s Last Exam بلا أدوات، و48.2% على Humanity’s Last Exam مع الأدوات، و67.9% على Terminal-Bench 2.0، و55.4% على SWE-Bench Pro / SWE Pro، و83.4% على BrowseComp، و73.6% على MCP Atlas / MCPAtlas Public .
أقوى claim لصالح DeepSeek في المصادر ليس فوزاً في فئة محددة، بل الكلفة مقابل الأداء. VentureBeat تصف DeepSeek V4 بأنه يقدم ذكاء قريباً من مستوى أحدث النماذج بتكلفة تقارب سدس تكلفة Opus 4.7 وGPT-5.5 . هذه حجة ممتازة لبدء اختبار داخلي إذا كانت الميزانية حساسة، لكنها ليست بديلاً عن قياس الجودة على مهامك الفعلية.
ولفحص السياق الطويل، تعرض مقارنة Artificial Analysis كلاً من DeepSeek V4 Pro وClaude Opus 4.7 بنافذة سياق قدرها 1,000k توكن . هذا يدعم التعادل في ذلك التكوين المذكور فقط، لا حكماً عاماً على كل أوضاع DeepSeek أو Claude
.
Kimi K2.6 هو الأصعب ترتيباً في هذه المجموعة لأنه غير موجود في الجدول الرئيسي نفسه الذي يقارن GPT-5.5 وClaude Opus 4.7 وDeepSeek-V4-Pro-Max . تورد مقارنة تركز على Kimi أن K2.6 سجل 58.6% على SWE-Bench Pro، و80.2% على SWE-Bench Verified، و66.7% على Terminal-Bench 2.0، و54.0% على Humanity’s Last Exam مع الأدوات، و89.6% على LiveCodeBench v6
. وتذكر تلك المقارنة أن أرقام K2.6 تأتي من بطاقة نموذج رسمية من Moonshot AI، لكن مجموعة المقارنة كانت أساساً Claude Opus 4.6 وGPT-5.4 لا التشكيلة الرباعية نفسها هنا
.
في مقارنة أخرى بين Kimi وDeepSeek، يظهر Kimi K2.6 عند 96.4% على AIME 2026 في وضع Thinking، و27.9% على APEX Agents في وضع Thinking، و83.2% على BrowseComp مع Thinking وإدارة السياق . وفي المصدر نفسه، يظهر DeepSeek-V4 Pro عند 83.4% على BrowseComp، بينما لا تتوافر قيم DeepSeek لـAIME 2026 وAPEX Agents
.
الخلاصة: Kimi يستحق الاختبار، خصوصاً إذا كانت اهتماماتك في البرمجة، والوكلاء، والرياضيات، والتصفح. لكن المواد المتاحة لا تدعم ترتيباً عاماً نظيفاً له أمام GPT-5.5 وClaude Opus 4.7 عبر مجموعة الاختبارات نفسها .
هذه ليست قائمة متصدرين نهائية لكل الاستخدامات. المصادر تخلط بين نسخ وأنماط مختلفة: GPT-5.5، وGPT-5.5 Pro، وDeepSeek-V4-Pro-Max، وDeepSeek V4 Pro، وClaude Opus 4.7، وKimi K2.6 . كما أن بعض النتائج مبلّغ عنها من المورّدين؛ وتذكر Vellum أن قيم GPT-5.5 التي تعرضها مصدرها إعلان OpenAI وأنها vendor-reported
. كذلك تشير OpenAI إلى أن تقييمات GPT في ARC أجريت بجهد استدلال xhigh داخل بيئة بحثية قد تختلف في بعض الحالات عن ChatGPT الإنتاجي
.
الفوارق الصغيرة يجب أن تُقرأ كإشارات لا كأحكام قاطعة. تقدم Claude على GPT-5.5 في GPQA Diamond هو 0.6 نقطة فقط، وتقدم GPT-5.5 على Claude في OSWorld-Verified هو 0.7 نقطة فقط . أما الفوارق الكبيرة فأكثر قابلية للتحويل إلى قرار عملي: تقدم GPT-5.5 على Claude في Terminal-Bench 2.0 يتجاوز 13 نقطة، وتقدمه في FrontierMath يبلغ 7.9 نقطة
.
الخلاصة العملية: لا يوجد فائز واحد بين GPT-5.5 وClaude Opus 4.7 وDeepSeek V4 وKimi K2.6. ابدأ من فئة الاختبار الأقرب إلى عبء عملك، ثم أعد التقييم على النماذج التي يمكنك تشغيلها فعلياً في بيئتك.
Comments
0 comments