| A-: المقارنة مع Claude Opus 4.7 في SWE-Bench Pro وTerminal-Bench 2.0 واردة في جدول OpenAI نفسه، لذلك هي أوضح نقطة مقارنة. أما Expert-SWE فداخلي ويحتاج إلى قراءة حذرة. |
| DeepSeek V4 | — | — | — | — | C، بيانات غير كافية: لا توجد في المصادر المتاحة هنا درجات معيارية قابلة للاقتباس، لذلك لا يصح إدخاله في ترتيب رقمي. |
في جدول OpenAI، يسجل Claude Opus 4.7 نتيجة 64.3٪ في SWE-Bench Pro، مقابل 58.6٪ لـGPT-5.5. هذه من أنظف المقارنات في المقال، لأن الرقمين موجودان في الجدول نفسه وبالاختبار نفسه.
تذكر مقالة Kilo AI أن Kimi K2.6 حقق 58.6٪ في SWE-Bench Pro، وهي نتيجة تبدو قريبة من GPT-5.5. لكنها لا تظهر هنا في جدول رسمي واحد يجمع Kimi مع GPT-5.5 وClaude Opus 4.7، لذلك تصلح كمؤشر أولي لا كحكم نهائي.
في Terminal-Bench 2.0، يعكس جدول OpenAI صورة مختلفة: GPT-5.5 يسجل 82.7٪، بينما يسجل Claude Opus 4.7 نتيجة 69.4٪. لذلك، إذا كان استخدامك أقرب إلى وكيل برمجي يعمل داخل الطرفية، وينفذ أوامر ويتعامل مع سير عمل قائم على سطر الأوامر، فمن المنطقي أن تضع GPT-5.5 في أول قائمة الاختبار.
لكن لا توجد في المصادر المتاحة هنا درجات قابلة للاقتباس لـKimi K2.6 أو DeepSeek V4 في Terminal-Bench 2.0، ولهذا لا يمكن ترتيب النماذج الأربعة في هذا الاختبار.
تظهر نتيجة Claude Opus 4.7 في SWE-Bench Verified عند 87.6٪ في مراجعات وتلخيصات خارجية؛ وتذكر Verdent أن الرقم Anthropic-conducted مع تطبيق memorization screens. أما Kimi K2.6 فتذكر مقالة Kilo AI أنه سجل 80.2٪ في SWE-Bench Verified.
الرقمان مفيدان كإشارة، لكنهما لا يملكان قوة المقارنة نفسها التي نراها في جدول OpenAI المشترك لـSWE-Bench Pro وTerminal-Bench 2.0.
يسجل GPT-5.5 نتيجة 73.1٪ في Expert-SWE، لكن OpenAI تصنف هذا الاختبار بوصفه internal eval، وتضيف أن مختبرات أخرى لاحظت evidence of memorization عليه. لذلك يمكن النظر إليه كإشارة داخلية من OpenAI، لا كمعيار مستقل نرتب به النماذج الأربعة.
إذا كانت حالتك تشبه إصلاح مشكلات GitHub أو التعامل مع عيوب برمجية متعددة الملفات، فابدأ باختبار Claude Opus 4.7. في SWE-Bench Pro، يتقدم Claude Opus 4.7 على GPT-5.5 بنتيجة 64.3٪ مقابل 58.6٪. كما تضع Vellum هذه المقارنة في سياق حل مشكلات GitHub الواقعية.
إذا كان السيناريو أقرب إلى وكيل برمجي يعمل عبر الطرفية، فضع GPT-5.5 في مقدمة التجربة. نتيجة 82.7٪ في Terminal-Bench 2.0 أعلى بوضوح من 69.4٪ لـClaude Opus 4.7. هذا لا يعني أنه الأفضل في كل مهام البرمجة، لكنه يعني أنه أقوى في هذا الاختبار تحديدًا.
إذا كنت تبحث عن نموذج مفتوح ضمن القائمة الأولية، فـKimi K2.6 يستحق التجربة. صفحة Hugging Face تصفه بأنه open-source وnative multimodal agentic model، ومقالة Kilo AI تنسب إليه 58.6٪ في SWE-Bench Pro و80.2٪ في SWE-Bench Verified. لكن الأفضل ألا تعتمد هذه الأرقام وحدها؛ أعد الاختبار على مستودعاتك ولغات البرمجة وأدواتك الفعلية.
أما DeepSeek V4، فالموقف الأكثر أمانًا هو الانتظار أو إعادة القياس داخليًا. بما أن المصادر المتاحة هنا لا تقدم درجات قابلة للتحقق، فإدخاله في جدول ترتيب رقمي سيعطي انطباعًا زائفًا بالدقة.
اختبارات النماذج اللغوية الكبيرة تصبح مضللة عندما نخلط أرقامًا من مصادر مختلفة وبيئات تشغيل مختلفة ومهام مختلفة. لذلك من الأفضل قراءة الأدلة على ثلاث طبقات:
الخلاصة العملية: Claude Opus 4.7 يتقدم في SWE-Bench Pro، وGPT-5.5 يتقدم في Terminal-Bench 2.0؛ Kimi K2.6 يبدو منافسًا في اختبارات SWE-Bench لكن قوة الدليل أقل، وDeepSeek V4 يجب اعتباره حالة بيانات غير كافية حاليًا.
بعد استخدام هذا الجدول لصنع قائمة أولية، الخطوة الأهم هي إعادة الاختبار على مهامك أنت: نوع المستودعات، لغات البرمجة، بيئة الاختبار، استدعاء الأدوات، زمن الاستجابة، التكلفة، وطريقة تعافي النموذج من الفشل. هذه النتائج ستكون أقرب إلى واقع المنتج من أي ترتيب عام للنماذج الأربعة.
Comments
0 comments