قراءة لوحات صدارة نماذج الذكاء الاصطناعي في 2026 قد تكون مضللة إذا وُضعت أسماء النماذج في جدول واحد من دون التأكد من أن الاختبار، وإصدار النموذج، وطريقة التشغيل واحدة. في المصادر المتاحة، المقارنة الأكثر صلابة هي بين Claude Opus 4.7 وGPT-5.5، لأنهما يظهران معاً على اختبارات متطابقة في جداول OpenAI وVellum [5][
2].
أما DeepSeek V4 وKimi K2.6 فالوضع مختلف: لا توجد لهما أرقام مباشرة في هذه المجموعة من المصادر. أقرب بيانات منشورة تتحدث عن DeepSeek V3.2 وKimiK2.5 وKimi K2 Thinking، وهي إصدارات مختلفة لا يصح استخدامها للحكم على V4 أو K2.6 [1][
13][
6].
الخلاصة السريعة
- إذا كان الاستخدام الأساسي هو وكيل يعمل داخل الطرفية أو واجهة الأوامر CLI، فإن GPT-5.5 يملك الإشارة الأقوى في Terminal-Bench 2.0: 82.7% مقابل 69.4% لـ Claude Opus 4.7 [
5].
- إذا كان الهدف إصلاح مستودعات برمجية أو إدارة تدفقات عمل طويلة تعتمد على الأدوات، فـ Claude Opus 4.7 يستحق الاختبار أولاً بفضل تفوقه في SWE-Bench Pro Public وMCP Atlas [
5][
2].
- في مهام العمل الاحترافية والتصفح والبحث وبعض الرياضيات المتقدمة، تميل الأرقام المنشورة لصالح GPT-5.5، مع استثناءات مهمة مثل FinanceAgent v1.1 [
5][
2].
- لا يمكن ترتيب DeepSeek V4 أو Kimi K2.6 بعدل أمام Claude Opus 4.7 أو GPT-5.5 بناءً على هذه المصادر، لأن الأرقام المتاحة تخص إصدارات أخرى [
1][
13][
6].
الأرقام القابلة للمقارنة مباشرة
الجدول التالي لا يجمع إلا الاختبارات التي يظهر فيها Claude Opus 4.7 وGPT-5.5 على المعيار نفسه. ذُكر GPT-5.5 Pro فقط عندما تعرضه المصادر كنسخة منفصلة [2].
| حاجة المنتج | الاختبار | النتيجة المنشورة | القراءة العملية |
|---|---|---|---|
| إصلاح الكود في المستودعات | SWE-Bench Pro Public | Claude Opus 4.7: 64.3% مقابل GPT-5.5: 58.6% [ | Claude يتقدم في هذا الاختبار تحديداً. |
| وكيل طرفية أو CLI | Terminal-Bench 2.0 | GPT-5.5: 82.7% مقابل Claude Opus 4.7: 69.4% [ | أوضح تفوق لـ GPT-5.5 يظهر هنا. |
| مهام العمل الاحترافي | GDPval وOfficeQA Pro | GPT-5.5: 84.9% مقابل Claude: 80.3% في GDPval؛ و54.1% مقابل 43.6% في OfficeQA Pro [ | GPT-5.5 أقوى في هذين المؤشرين المهنيين. |
| وكيل مالي | FinanceAgent v1.1 | Claude: 64.4% مقابل GPT-5.5: 60.0% [ | Claude يتقدم في هذا التقييم المالي. |
| مهام الحاسوب والمتصفح | OSWorld-Verified وBrowseComp | GPT-5.5: 78.7% مقابل Claude: 78.0% في OSWorld؛ وGPT-5.5: 84.4% وGPT-5.5 Pro: 90.1% مقابل Claude: 79.3% في BrowseComp [ | شبه تعادل في OSWorld، وتفوق أوضح لـ GPT-5.5 في BrowseComp. |
| تنسيق الأدوات | MCP Atlas | Claude: 79.1% مقابل GPT-5.5: 75.3% [ | Claude أفضل في السيناريوهات الثقيلة بالأدوات. |
| الاستدلال العلمي والرياضي | GPQA Diamond وFrontierMath T1–3 | Claude: 94.2% مقابل GPT-5.5: 93.6% في GPQA؛ وGPT-5.5: 51.7% وGPT-5.5 Pro: 52.4% مقابل Claude: 43.8% في FrontierMath [ | GPQA متقارب جداً، بينما GPT-5.5 يتقدم في FrontierMath. |
كيف لا تقع في فخ لوحة الصدارة الواحدة
1. لا تخلط SWE-Bench Pro مع SWE-bench Verified
في جدول OpenAI المباشر بين GPT-5.5 وClaude Opus 4.7، الاختبار المستخدم هو SWE-Bench Pro Public [5]. هذا ليس الاختبار نفسه المعروف باسم SWE-bench Verified. يصف BenchLM اختبار SWE-bench Verified بأنه مجموعة فرعية تحقق منها بشر من SWE-bench، وتقيس قدرة النماذج على حل مشكلات GitHub حقيقية من مستودعات Python شائعة مثل Django وFlask وscikit-learn [
21].
لذلك لا ينبغي مقارنة نتيجة Claude البالغة 64.3% في SWE-Bench Pro Public مباشرةً بأرقام Claude في SWE-bench Verified من لوحات صدارة أخرى من دون مطابقة اسم الاختبار، وآلية التشغيل، وتاريخ التقييم، وإعدادات النموذج [5][
21].
2. GPQA Diamond لم يعد فاصلاً كافياً بين النماذج المتقدمة
تعرض Vellum نتيجة Claude Opus 4.7 عند 94.2% وGPT-5.5 عند 93.6% في GPQA Diamond [2]. كما نقلت The Next Web أن Claude Opus 4.7 سجل 94.2%، وGPT-5.4 Pro سجل 94.4%، وGemini 3.1 Pro سجل 94.3%، ووصفت الفوارق بين هذه النماذج بأنها داخل نطاق الضجيج الإحصائي [
17].
هذا لا يجعل GPQA عديم الفائدة، لكنه يعني أنه لم يعد كافياً وحده لاختيار نموذج إنتاجي. عند تقارب النماذج بهذا الشكل، تصبح الاختبارات التطبيقية — مثل الطرفية، وإصلاح المستودعات، وتنسيق الأدوات، والتصفح — أكثر أهمية.
3. لوحات الصدارة الخارجية قد تعطي أرقاماً مختلفة
حتى في SWE-bench Verified، لا تظهر نتيجة Claude Opus 4.7 بالرقم نفسه في كل مصدر. يذكر BenchLM أن Claude Opus 4.7 Adaptive وصل إلى 87.6% في 24 أبريل/نيسان 2026 [21]. ويعرض LLM Stats الرقم نفسه، 87.6% [
18]. في المقابل، يعرض LM Council نتيجة 83.5% ±1.7 لنسخة Claude Opus 4.7 max [
10]، بينما يذكر MindStudio نتيجة 82.4% [
14].
هذا الاختلاف لا يعني بالضرورة أن أحد المصادر مخطئ. غالباً ما تأتي الفروق من إعدادات النموذج، وآلية الاختبار، وتاريخ القياس، وطريقة احتساب المحاولات أو أوضاع الاستدلال. عملياً، الأفضل أن تُستخدم الأرقام العامة كقائمة ترشيح أولية، لا كبديل عن اختبار النموذج داخل مستودعاتك وسير عملك.
أين يبرز Claude Opus 4.7؟
أقوى إشارات Claude Opus 4.7 تظهر في إصلاح الكود وتدفقات العمل التي تعتمد على عدة أدوات. في جدول OpenAI، يتقدم Claude على GPT-5.5 في SWE-Bench Pro Public بنسبة 64.3% مقابل 58.6%، ويتقدم أيضاً في FinanceAgent v1.1 بنسبة 64.4% مقابل 60.0% [5]. وتعرض Vellum تفوق Claude في MCP Atlas بنسبة 79.1% مقابل 75.3% لـ GPT-5.5 [
2].
من جهتها، تبرز Anthropic إشارات شريكة تتعلق بتدفقات العمل الوكيلة. في إعلان Claude Opus 4.7، تنقل Anthropic عن Hebbia أنها رأت قفزة من رقمين في دقة نداءات الأدوات والتخطيط داخل وكلاء التنسيق، كما تنقل عن Rakuten-SWE-Bench أن Opus 4.7 حل ثلاثة أضعاف عدد مهام الإنتاج مقارنة بـ Opus 4.6، مع مكاسب من رقمين في جودة الكود وجودة الاختبارات [19].
هذه إشارات مفيدة، لكنها لا تغني عن اختبار داخلي مستقل. إذا كانت أولويتك هي إصلاح المستودعات ذاتياً، أو تشغيل سير عمل طويل يعتمد على أدوات كثيرة، أو استخدام بروتوكولات تنسيق أدوات معقدة، فـ Claude Opus 4.7 يستحق أن يكون أول نموذج تختبره. لكن القرار النهائي يجب أن يعتمد على حزمة اختباراتك، ونموذج الصلاحيات لديك، ونمط نداءات الأدوات في بيئتك الفعلية.
أين يبرز GPT-5.5؟
أوضح تفوق لـ GPT-5.5 يظهر في Terminal-Bench 2.0، حيث تعرض OpenAI نتيجة 82.7% لـ GPT-5.5 مقابل 69.4% لـ Claude Opus 4.7 و68.5% لـ Gemini 3.1 Pro [5]. وفي الجدول نفسه، يتقدم GPT-5.5 على Claude في GDPval بنسبة 84.9% مقابل 80.3%، وفي OfficeQA Pro بنسبة 54.1% مقابل 43.6% [
5].
تضيف Vellum سياقاً مهماً لمهام استخدام الحاسوب والبحث والاستدلال. يتقدم GPT-5.5 بفارق بسيط في OSWorld-Verified بنسبة 78.7% مقابل 78.0% لـ Claude، ويتقدم بوضوح أكبر في BrowseComp بنسبة 84.4% مقابل 79.3%، وكذلك في FrontierMath T1–3 بنسبة 51.7% مقابل 43.8% [2]. وفي BrowseComp، تعرض Vellum نتيجة GPT-5.5 Pro عند 90.1% [
2].
في البرمجة، الصورة مختلطة. GPT-5.5 قوي جداً في Terminal-Bench 2.0، لكنه يتأخر عن Claude Opus 4.7 في SWE-Bench Pro Public ضمن جدول OpenAI [5]. كما توضح بطاقة نظام GPT-5.5 من OpenAI تقييم CoT-Control، وهو حزمة تضم أكثر من 13,000 مهمة مأخوذة من معايير مثل GPQA وMMLU-Pro وHLE وBFCL وSWE-Bench Verified [
26]. لكن هذه البطاقة لا تقدم مقارنة مباشرة مع DeepSeek V4 أو Kimi K2.6 [
26].
ماذا عن DeepSeek V4 وKimi K2.6؟
بالنسبة إلى DeepSeek V4، لا تقدم المصادر المتاحة رقماً مباشراً يمكن مقارنته مع Claude Opus 4.7 أو GPT-5.5. أقرب ما يظهر هو DeepSeek V3.2، حيث تضعه MangoMind ضمن توصيات البرمجة في أبريل/نيسان 2026 بنتيجة 89.2% على SWE-bench، خلف Claude Opus 4.6 عند 93.2% وGPT-5.4 Pro عند 91.1% [1]. هذه أرقام مفيدة لفهم موقع DeepSeek V3.2، لكنها لا تكفي لاستنتاج أداء DeepSeek V4.
الوضع مشابه مع Kimi K2.6. يذكر تقرير Stanford HAI أن KimiK2.5 كان ضمن مجموعة نماذج بين 70% و76% على SWE-bench Verified في فبراير/شباط 2026 [13]. كما تعرض Siliconflow نموذج Kimi K2 Thinking بنتيجة 84.5 في GPQA و71.3 في SWE Bench [
6]. لكن KimiK2.5 وKimi K2 Thinking ليسا Kimi K2.6، لذلك لا تصلح هذه الأرقام كدليل مباشر على أداء النموذج المطلوب.
أي نموذج تختبر أولاً؟
| إذا كان الاستخدام الأساسي هو... | النموذج الذي يستحق الاختبار أولاً | أساس الاختيار | التحفظ المهم |
|---|---|---|---|
| وكيل طرفية أو CLI للبرمجة | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 عند 82.7% مقابل Claude عند 69.4% [ | أعد الاختبار داخل بيئة shell والصلاحيات وCI/CD الخاصة بك. |
| إصلاح مستودعات برمجية ذاتياً | Claude Opus 4.7، ثم GPT-5.5 للمقارنة | SWE-Bench Pro Public: Claude عند 64.3% مقابل GPT-5.5 عند 58.6% [ | لا تخلطه مع SWE-bench Verified من دون مطابقة آلية الاختبار [ |
| تنسيق أدوات أو سير عمل متعدد الخطوات | Claude Opus 4.7 | MCP Atlas: Claude عند 79.1% مقابل GPT-5.5 عند 75.3% [ | اختبره على مخططات الأدوات وسياسات الوصول ومنطق إعادة المحاولة لديك. |
| وكيل بحث أو تصفح | GPT-5.5 أو GPT-5.5 Pro | BrowseComp: GPT-5.5 عند 84.4% وGPT-5.5 Pro عند 90.1% مقابل Claude عند 79.3% [ | لا تفترض أن BrowseComp يمثل كل احتياجات البحث الداخلي. |
| تدفقات مالية أو مهنية | اختبار متوازٍ بين Claude وGPT-5.5 | Claude يتقدم في FinanceAgent v1.1، بينما GPT-5.5 يتقدم في GDPval وOfficeQA Pro [ | يشير MindStudio إلى أن الفجوة بين رقم benchmark مالي وأداة إنتاجية مستخدمة فعلاً غالباً ما تكون في البنية التحتية الشاملة، لا في ذكاء النموذج فقط [ |
| استدلال علمي عام | لا تختر من GPQA وحده | نتائج GPQA Diamond بين Claude وGPT-5.5 متقاربة جداً في Vellum [ | استخدم اختبارات خاصة بمجالك، خصوصاً إذا كانت مهامك تختلف عن أسئلة benchmark. |
الخلاصة
إذا التزمنا فقط بالأدلة المباشرة المتاحة، فإن GPT-5.5 يبدو المرشح الأقوى لوكلاء الطرفية وCLI، والتصفح والبحث، والمهام المكتبية، وبعض اختبارات الرياضيات المتقدمة [5][
2]. في المقابل، يبدو Claude Opus 4.7 أقوى في SWE-Bench Pro Public، وتنسيق الأدوات عبر MCP Atlas، وFinanceAgent v1.1 [
5][
2].
أما DeepSeek V4 وKimi K2.6 فلا يمكن ترتيبهما بعدل أمام هذين النموذجين بناءً على هذه المصادر. الأرقام المنشورة تتعلق بإصدارات أخرى — DeepSeek V3.2 وKimiK2.5 وKimi K2 Thinking — وبالتالي لا تدعم ادعاءً مباشراً بأن DeepSeek V4 أو Kimi K2.6 يتفوقان على Claude Opus 4.7 أو GPT-5.5 [1][
13][
6].




