إذا كنت تحاول الاختيار بين GPT-5.5 وClaude Opus 4.7 وKimi K2.6 وDeepSeek V4-Pro، فالفخ الأكبر هو تحويل كل رقم منشور إلى سباق خيل. الأرقام المتاحة لا تأتي من المصدر نفسه، ولا من إعدادات أدوات واحدة، ولا من مستوى reasoning effort واحد. لذلك فالقراءة الأكثر إنصافًا هي قراءة عملية: GPT-5.5 يبدو أقوى مرشح لسير عمل الطرفية وسطر الأوامر؛ Claude Opus 4.7 يتقدم عندما تجمع المهمة بين إصلاح البرمجيات والرؤية واستخدام الواجهات؛ DeepSeek V4-Pro يستحق الاختبار إذا كانت الأولوية للمعرفة والرياضيات ومسار النماذج المفتوحة؛ وKimi K2.6 يدخل القائمة القصيرة عند بناء وكلاء متعددين الوسائط على Cloudflare Workers AI.[27][
4][
1][
5][
64][
36]
لقطة سريعة للأرقام القابلة للاستشهاد
الجدول التالي لا يقول إن هذه النماذج خضعت كلها للمختبر نفسه وبالشروط نفسها. الشرطة — تعني فقط أن المصادر المتاحة هنا لا تقدم رقمًا قابلًا للاستشهاد في ذلك العمود، لا أن النموذج ضعيف أو غير قادر في ذلك الاختبار.
| الاختبار أو المهمة | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | القراءة العملية |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | في الأرقام المتاحة، GPT-5.5 هو الأبرز لسير عمل سطر الأوامر. |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude في الصدارة ضمن الأرقام القابلة للاستشهاد، لكن الرقم من مصدر ثانوي ينقل عن AWS. |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claude أعلى هنا، مع التنبيه إلى غياب رقم GPT-5.5 في الصف نفسه واختلاف تسمية الاختبار بين المصادر. |
| Graphwalks 256k: BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | في صفّي 256k ضمن جدول OpenAI، Claude Opus 4.7 أعلى من GPT-5.5. |
| Graphwalks 1M: BFS / parents | 45.4 / 58.5 [ | — | — | — | يوضح جدول OpenAI أداء GPT-5.5 عند سياق 1M؛ أما عمود المقارنة المتاح هناك فيشير إلى Opus 4.6، لذلك لا يصلح للحكم على Opus 4.7.[ |
| المعرفة والرياضيات | — | — | — | GPQA Diamond 90.1، GSM8K 92.6، MMLU-Pro 87.5، HLE 37.7 [ | DeepSeek V4-Pro يملك أكثر بطاقة نموذج اكتمالًا في هذا المحور ضمن المصادر المتاحة. |
| الرؤية ولقطات الشاشة وcomputer-use | — | مكاسب في الأحمال كثيفة الرؤية؛ إحداثيات بكسل 1:1؛ 98.5% في معيار XBOW للرؤية [ | تصفه Cloudflare كنموذج وكيل متعدد الوسائط، بلا رقم بصري موحد هنا [ | — | الدليل الرسمي الأقوى لمهام الواجهة والرؤية يميل إلى Claude Opus 4.7. |
لماذا لا يصح إعلان فائز واحد؟
أولًا، مستوى المصادر غير موحد. أرقام GPT-5.5 في Terminal-Bench 2.0 وSWE-Bench Pro وردت في تقرير إعلامي ينقل نتائج benchmark قدمتها OpenAI؛ وأرقام Claude Opus 4.7 في SWE-Bench Pro وSWE-Bench Verified وTerminal-Bench 2.0 تأتي من تجميع ثانوي ينقل عن AWS؛ أما بعض أرقام Kimi K2.6 وDeepSeek V4-Pro فتأتي من بطاقات نماذج على Hugging Face.[27][
4][
84][
64]
ثانيًا، السماح بالأدوات يغير النتيجة. في أرقام HLE التي نقلتها Mashable، حقق Claude Opus 4.7 نتيجة 46.9% من دون أدوات مقابل 42.7% لـ GPT-5.4 Pro؛ لكن مع الأدوات صعد GPT-5.4 Pro إلى 58.7% مقابل 54.7% لـ Claude Opus 4.7. هذه ليست نتيجة GPT-5.5، لكنها مثال واضح على أن نتائج with tools وwithout tools لا توضع في جدول واحد بلا تنبيه.[6]
ثالثًا، النسخة والتكلفة وإعداد الجهد تؤثر في القراءة. DeepSeek V4 يأتي بنسختي V4-Pro وV4-Flash، وتقرير Yahoo Finance يذكر أن V4-Flash هو الخيار الأكثر كفاءة واقتصادًا، بينما الأرقام التفصيلية التي نعتمد عليها هنا تخص DeepSeek-V4-Pro أساسًا.[57][
64] كما أن Artificial Analysis تقسم GPT-5.5 إلى effort variants، وتذكر أن GPT-5.5 xhigh يكلف تشغيل مؤشرها نحو 20% أكثر من السابق، لكنه أقل بنحو 30% من Claude Opus 4.7 max.[
24]
GPT-5.5: الأفضلية الأوضح في الطرفية والسياقات الطويلة
أقوى نقطة رقمية لـ GPT-5.5 في هذه المجموعة هي Terminal-Bench 2.0. تقرير Yahoo Finance / Investing.com يقول إن نتائج benchmark المقدمة من OpenAI تضع GPT-5.5 عند 82.7% في Terminal-Bench 2.0، وهو اختبار يقيس سير العمل عبر سطر الأوامر، كما يذكر أن GPT-5.5 حقق 58.6% في SWE-Bench Pro، الذي يقيّم حل مشكلات GitHub.[27]
في السياقات الطويلة، تقدم OpenAI أرقامًا أكثر تفصيلًا: GPT-5.5 يحقق 73.7 في Graphwalks BFS عند 256k و45.4 عند 1M، ويحقق 90.1 في Graphwalks parents عند 256k و58.5 عند 1M. وفي الجدول نفسه يظهر أن GPT-5.4 حقق 9.4 فقط في Graphwalks BFS عند 1M، مقابل 45.4 لـ GPT-5.5.[21]
من جهة تقييمات الطرف الثالث، تصف Artificial Analysis GPT-5.5 بأنه النموذج القائد الجديد، وتقول إن OpenAI تتصدر خمسة من تقييماتها الرئيسية وتأتي ثانية خلف Gemini 3.1 Pro Preview في ثلاثة أخرى؛ كما تذكر أن GPT-5.5 xhigh يستخدم نحو 40% أقل من رموز الإخراج لتشغيل مؤشرها مقارنة بالسابق.[24]
متى تبدأ به؟ إذا كان العمل يدور حول أتمتة CLI، ووكلاء الطرفية، والاسترجاع ضمن سياقات طويلة، أو سير عمل agentic coding يحتاج إلى ضبط تكلفة رموز الإخراج.[27][
21][
24]
Claude Opus 4.7: إصلاح الكود والرؤية واستخدام الواجهات
أوضح دليل رسمي لـ Claude Opus 4.7 يأتي في الرؤية والتعامل مع واجهات المستخدم. وثائق Anthropic تقول إن التغيير يفترض أن يفتح مكاسب في الأداء للأحمال كثيفة الرؤية، وخاصة في computer use ولقطات الشاشة وفهم artifacts والمستندات؛ وتضيف أن إحداثيات النموذج أصبحت تطابق البكسلات الفعلية بنسبة 1:1، ما يلغي حسابات معامل التكبير والتصغير.[1]
صفحة إطلاق Anthropic تنقل عن XBOW أن Claude Opus 4.7 حقق 98.5% في معيار حدة الرؤية مقابل 54.5% لـ Opus 4.6.[5] لهذا تبدو حجة Claude أقوى من غيره في مهام مثل فهم لقطات الشاشة، قراءة تخطيط المستندات، تشغيل واجهات سطح المكتب، ووكلاء computer-use.[
1][
5]
في البرمجة، يذكر تجميع أن AWS تستشهد بأرقام 64.3% لـ Claude Opus 4.7 في SWE-Bench Pro، و87.6% في SWE-Bench Verified، و69.4% في Terminal-Bench 2.0.[4] هذه الأرقام تجعل Claude متقدمًا في صفوف SWE-Bench المتاحة هنا، لكن لأنها ليست جدولًا رسميًا مباشرًا داخل المصدر الأصلي، فمن الأفضل إعادة الاختبار على مستودعاتك قبل اعتماد قرار إنتاجي.
هناك أيضًا ملاحظة تكلفة مهمة: وثائق Anthropic تنبه إلى أن الصور عالية الدقة تستهلك رموزًا أكثر، وتنصح بخفض الدقة قبل إرسال الصور إلى Claude إذا لم تكن التفاصيل الإضافية ضرورية.[1]
متى تبدأ به؟ إذا كانت الأولوية لإصلاح مشكلات GitHub، أو بناء coding agents، أو فهم لقطات الشاشة والمستندات، أو تشغيل واجهات تحتاج إلى إحداثيات بكسل دقيقة.[1][
4][
5]
Kimi K2.6: مرشح قوي عندما تكون البنية على Workers AI
توضح Cloudflare أن Moonshot AI Kimi K2.6 أصبح متاحًا على Workers AI في 20 أبريل/نيسان 2026، بمعرف النموذج @cf/moonshotai/kimi-k2.6، وأن ذلك تم بدعم Day 0 بالتعاون مع Moonshot AI.[36]
المصدر نفسه يصف Kimi K2.6 بأنه native multimodal agentic model، ويركز على long-horizon coding، والتصميم المدفوع بالبرمجة، والتنفيذ الذاتي الاستباقي، وتنسيق المهام عبر swarm-based orchestration. وتقول Cloudflare إنه مبني على معمارية Mixture-of-Experts بإجمالي تريليون معلمة و32 مليار معلمة نشطة لكل رمز.[36]
في الأرقام المنشورة، تعرض بطاقة Kimi K2.6 على Hugging Face نتيجة 66.7 في Terminal-Bench 2.0، و58.6 في SWE-Bench Pro، و76.7 في SWE-Bench Multilingual.[84] كما يذكر MarkTechPost أن Kimi K2.6 حقق 80.2 في SWE-Bench Verified.[
45]
متى تضعه في القائمة القصيرة؟ إذا كان فريقك يعمل أصلًا على Cloudflare Workers AI، أو يحتاج إلى long-horizon coding، أو تصميم مدفوع بالكود، أو سير عمل وكلاء متعددين الوسائط، أو تنسيق عدة وكلاء في مهمة واحدة.[36][
84]
DeepSeek V4-Pro: أرقام معرفة ورياضيات واضحة ومسار مفتوح المصدر
تظهر DeepSeek V4 في المصادر بنسختين: V4-Pro وV4-Flash. تقرير Yahoo Finance يقول إن DeepSeek تصف V4-Pro بأنه يتقدم بوضوح على النماذج المفتوحة الأخرى في اختبارات المعرفة العالمية، ولا يتأخر إلا قليلًا عن النموذج المغلق المتقدم Gemini-Pro-3.1؛ كما يذكر أن V4-Flash خيار أكثر كفاءة واقتصادًا.[57]
بطاقة DeepSeek-V4-Pro على Hugging Face تقدم واحدة من أكمل مجموعات الأرقام في هذه المقارنة: GPQA Diamond 90.1، وGSM8K 92.6، وHLE 37.7، وMMLU-Pro 87.5، وSWE-Bench Pro 55.4، وSWE-Bench Verified/Resolved 80.6، وTerminalBench 2.0 عند 67.9.[64]
وتنقل CNBC أن DeepSeek قالت إن V4 مُحسّن لأدوات وكلاء شائعة مثل Claude Code وOpenClaw؛ كما نقلت عن Wei Sun، المحللة الرئيسية للذكاء الاصطناعي في Counterpoint، أن ملف نتائج V4 يشير إلى إمكانية تقديم قدرة وكلاء ممتازة بتكلفة أقل بكثير.[58]
متى تبدأ به؟ عندما تكون الأولوية لمسار مفتوح المصدر، أو لاختبارات المعرفة والرياضيات، أو لتقييم تكلفة وكلاء الذكاء الاصطناعي، أو لتجربة نموذج يمكن تنزيله وتشغيله محليًا وتعديله في معظم الحالات.[58][
64]
كيف تختار حسب المهمة؟
- أتمتة الطرفية ووكلاء سطر الأوامر: ابدأ بـ GPT-5.5. الرقم المتاح له في Terminal-Bench 2.0 هو 82.7%، مقابل 69.4% لـ Claude Opus 4.7، و67.9 لـ DeepSeek V4-Pro، و66.7 لـ Kimi K2.6.[
27][
4][
64][
84]
- إصلاح البرمجيات ومهام SWE-Bench Pro: ابدأ بـ Claude Opus 4.7، لكن اختبر مستودعاتك بنفسك. الأرقام المتاحة تضع Claude عند 64.3%، وGPT-5.5 وKimi K2.6 عند 58.6، وDeepSeek V4-Pro عند 55.4؛ مع التنبيه إلى أن رقم Claude من مصدر ثانوي.[
4][
27][
84][
64]
- لقطات الشاشة وفهم المستندات وcomputer-use: أعط الأولوية لـ Claude Opus 4.7. وثائق Anthropic تذكر صراحة أحمال الرؤية وcomputer use وإحداثيات 1:1 مع البكسلات، وصفحة الإطلاق تنقل نتيجة 98.5% من XBOW في حدة الرؤية.[
1][
5]
- المعرفة والرياضيات ومسار النماذج المفتوحة: ضع DeepSeek V4-Pro مبكرًا في القائمة. بطاقة النموذج على Hugging Face تجمع أرقام GPQA Diamond وGSM8K وHLE وMMLU-Pro وSWE-Bench وTerminalBench 2.0 في مكان واحد.[
64]
- وكلاء متعددون الوسائط على Workers AI: اختبر Kimi K2.6. Cloudflare توفر دعمًا مبكرًا للنموذج على Workers AI، وتقدمه كخيار لـ long-horizon coding وتنسيق المهام بأسلوب swarm-based orchestration.[
36]
قبل الاعتماد: أعد الاختبار بشروط واحدة
للوصول إلى قرار داخلي يمكن الدفاع عنه، لا يكفي نسخ جدول من الإنترنت. استخدم إصدار النموذج أو معرف API نفسه، وطول السياق نفسه، وصلاحيات الأدوات نفسها، وreasoning effort نفسه، وtemperature نفسها، وميزانية الرموز نفسها، وآلية scoring نفسها. لا تخلط خصوصًا بين الاختبارات التي تسمح بالأدوات وتلك التي لا تسمح بها، لأن أرقام HLE المنقولة تُظهر أن السماح بالأدوات قد يغيّر ترتيب النماذج.[6]
اختبر التكلفة أيضًا، لا الدقة فقط. Artificial Analysis تذكر أن GPT-5.5 xhigh يكلف نحو 20% أكثر من السابق لتشغيل مؤشرها، لكنه أقل بنحو 30% من Claude Opus 4.7 max، وأنه يستخدم رموز إخراج أقل بنحو 40% من السابق.[24] وفي المقابل، تحذر وثائق Anthropic من أن الصور عالية الدقة تزيد استهلاك الرموز.[
1] في الإنتاج، قد تكون السرعة، واستهلاك الرموز، ونجاح استدعاءات الأدوات، ومعدل إصلاح الأخطاء أهم من نقطة واحدة في benchmark.
الخلاصة
لا يوجد الآن أساس قوي لترتيب شامل عادل بين GPT-5.5 وClaude Opus 4.7 وKimi K2.6 وDeepSeek V4-Pro. القراءة الأكثر فائدة هي حسب المهمة: Terminal-Bench يميل إلى GPT-5.5، وSWE-Bench والرؤية وcomputer-use تميل إلى Claude Opus 4.7، وبطاقة المعرفة والرياضيات تجعل DeepSeek V4-Pro مرشحًا جادًا، أما سير عمل الوكلاء متعدد الوسائط على Workers AI فيجعل Kimi K2.6 خيارًا يستحق الاختبار.[27][
4][
1][
5][
64][
36] الترتيب الحقيقي يحتاج إلى تشغيل النماذج الأربعة على harness واحد، وبالإعدادات نفسها، وبالإصدارات نفسها.




