| SWE-Bench Pro | 58.6٪ | 64.3٪ | Claude Opus 4.7 يتقدم في اختبار إصلاح مشكلات GitHub الواقعية الصعبة؛ وتذكر OpenAI أن GPT-5.5 يسجل 58.6٪ في هذا الاختبار |
| GPQA Diamond | 93.6٪ | 94.2٪ | Claude أعلى بفارق 0.6 نقطة مئوية فقط؛ هذا لا يكفي وحده للقول إنه أفضل في كل مسائل الاستدلال |
| BrowseComp | 84.4٪ | 79.3٪ | GPT-5.5 يتقدم في جدولي Vellum وMashable |
| GDPval | 84.9٪ | 80.3٪ | GPT-5.5 يتقدم في جدول Vellum |
| OSWorld-Verified | 78.7٪ | 78.0٪ | GPT-5.5 متقدم بفارق طفيف جدًا؛ يحتاج الأمر إلى اختبار داخلي على سير العمل الحقيقي |
| MCP Atlas | 75.3٪ | 79.1٪ | Claude Opus 4.7 يتقدم في هذا الاختبار المرتبط بتنسيق الأدوات بحسب جدول Vellum |
| FrontierMath T1–3 | 51.7٪ | 43.8٪ | GPT-5.5 يتقدم في جدول Vellum |
| Humanity’s Last Exam | غير متسق بين المصادر | غير متسق بين المصادر | لا يصلح كفاصل حاسم ما لم تُعد تشغيله بنفس الإعدادات؛ LLM Stats وMashable وo-mega تعرض إشارات مختلفة |
إذا جمّعنا الصورة كما تفعل LLM Stats، فإن Claude Opus 4.7 يتقدم في 6 من 10 بنشماركات يقول المصدر إن المزوّدين يبلغان عنها، بينما يتقدم GPT-5.5 في 4. يضيف المصدر أن تفوق Claude يتركز في الاختبارات الثقيلة من ناحية الاستدلال والمراجعة، بينما يتركز تفوق GPT-5.5 في استخدام الأدوات طويل المدى ومهام shell وسطر الأوامر . هذه قراءة مفيدة كبداية، لكنها لا تحل مشكلة النتائج المتضاربة في Humanity’s Last Exam
.
إذا كان منتجك وكيلًا برمجيًا يعمل داخل الطرفية، فـGPT-5.5 هو المرشح الأقوى مبدئيًا وفق الأرقام العامة. يسجل GPT-5.5 نسبة 82.7٪ في Terminal-Bench 2.0 مقابل 69.4٪ لـClaude Opus 4.7 . وتصف OpenAI الاختبار بأنه يقيس مسارات command-line معقدة تتطلب التخطيط، التكرار، وتنسيق الأدوات
.
هذا مهم إذا كنت تبني مساعد CLI، أو وكيل DevOps، أو نظامًا يقرأ أخطاء الاختبارات، يعدّل الملفات، يشغّل الأوامر، ثم يكرر الدورة حتى يصل إلى حل. في هذا النوع من العمل، Terminal-Bench 2.0 أقرب إلى الواقع من اختبار استدلال عام.
لكن إذا كان العمل أقرب إلى إصلاح مشكلات برمجية حقيقية داخل مستودعات GitHub، فالصورة تنقلب. Claude Opus 4.7 يتقدم في SWE-Bench Pro بنتيجة 64.3٪ مقابل 58.6٪ لـGPT-5.5 . وتصف OpenAI هذا الاختبار بأنه يقيم قدرة النموذج على حل مشكلات GitHub واقعية
. لذلك، إن كان عبء العمل لديك يشبه bug fixing أو تعديل كود داخل مستودع حقيقي أو مهام مراجعة برمجية عميقة، فمن المنطقي وضع Claude Opus 4.7 في أول قائمة الاختبار.
أما SWE-Bench Verified فلا يكفي، ضمن هذه المصادر، لحسم المقارنة بين النموذجين. MindStudio يذكر أن Claude Opus 4.7 حقق 82.4٪، بينما APIyi وDataCamp يذكران 87.6٪؛ ولا توفر المصادر هنا زوجًا ثابتًا من الأرقام لـGPT-5.5 وClaude Opus 4.7 على السطر نفسه .
في اختبارات الوكلاء وسير العمل، لدى GPT-5.5 أكثر من إشارة إيجابية. في جدول Vellum يتقدم في BrowseComp بنتيجة 84.4٪ مقابل 79.3٪، وفي GDPval بنتيجة 84.9٪ مقابل 80.3٪، وفي OSWorld-Verified بنتيجة 78.7٪ مقابل 78.0٪ . وتسجل Mashable أيضًا تقدم GPT-5.5 في BrowseComp بالزوج نفسه من النتائج: 84.4٪ مقابل 79.3٪
. وتضيف LLM Stats أن GPT-5.5 يتقدم في CyberGym، رغم أن المقتطف المتاح لا يعرض النسب المئوية
.
مع ذلك، لدى Claude Opus 4.7 مناطق قوة واضحة. في جدول Vellum يتقدم Claude في MCP Atlas بنتيجة 79.1٪ مقابل 75.3٪ لـGPT-5.5 . كما تضع LLM Stats Claude في الصدارة على FinanceAgent v1.1، بينما تذكر DataCamp أن Claude Opus 4.7 سجل 64.4٪ في هذا الاختبار
. وتصف Anthropic Claude Opus 4.7 بأنه نموذج Opus أحدث يقدم أداء أقوى في البرمجة، والوكلاء، والرؤية، والمهام متعددة الخطوات
.
الخلاصة العملية: إن كان سير العمل لديك يعتمد على shell أو التصفح أو أتمتة شبيهة باستخدام نظام التشغيل، فابدأ باختبار GPT-5.5. أما إذا كان العمل يقوم على تنسيق أدوات منظم، أو MCP، أو مسارات مالية متخصصة، فلا تستبعد Claude Opus 4.7 قبل اختباره مباشرة.
في GPQA Diamond، يسجل Claude Opus 4.7 نسبة 94.2٪ مقابل 93.6٪ لـGPT-5.5 في الجداول المقارنة . هذا تفوق لـClaude، لكنه تفوق صغير جدًا: 0.6 نقطة مئوية. إذا كان استخدامك يتعلق بأسئلة علمية، تحليل تخصصي، أو استدلال طويل، فالقرار الأفضل ليس الاعتماد على GPQA وحده، بل تشغيل النموذجين على أسئلتك وبياناتك الفعلية.
أما Humanity’s Last Exam فهو الجزء الذي يجب التعامل معه بأكبر قدر من الحذر. تقول LLM Stats إن Claude Opus 4.7 يتقدم في HLE من دون أدوات ومع الأدوات . لكن Mashable تذكر أن GPT-5.5 يسجل 40.6٪ مقابل 31.2٪ لـOpus 4.7 في نسخة من دون أدوات، بينما يتقدم Claude في نسخة الأدوات بنتيجة 54.7٪ مقابل 52.2٪ لـGPT-5.5
. ويعرض o-mega مجموعة أرقام أخرى لـHLE
. عندما لا تتفق المصادر، لا تستخدم HLE كفاصل نهائي إلا إذا أعدت تشغيله بنفس الإعدادات.
ابدأ بـGPT-5.5 إذا كانت أولويتك وكيلًا يعمل داخل الطرفية، أو مسارًا يعتمد على shell، أو حلقة تشغيل اختبارات وتصحيح ملفات وأتمتة متعددة الخطوات؛ فـTerminal-Bench 2.0 يميل بوضوح لصالحه . وهو أيضًا خيار يستحق الاختبار مبكرًا في أعمال التصفح والبحث، وGDPval، وOSWorld-Verified، وFrontierMath T1–3 بحسب جدول Vellum ونتائج BrowseComp المنشورة
.
وابدأ بـClaude Opus 4.7 إذا كانت أولويتك إصلاح مشكلات برمجية شبيهة بـSWE-Bench Pro، حيث يتقدم Claude على GPT-5.5 . كما يستحق Claude مكانًا في القائمة القصيرة إذا كانت أعمالك تشبه GPQA في الاستدلال العلمي، أو تعتمد على MCP وتنسيق الأدوات، أو تتضمن مسارات مالية متخصصة، استنادًا إلى GPQA Diamond وMCP Atlas وFinanceAgent v1.1 وملخص LLM Stats
.
الطريقة الأكثر أمانًا هي ألا تختار من لوحة صدارة واحدة. قسّم عملك إلى أربع فئات: برمجة داخل المستودع، أتمتة طرفية ووكلاء، استدلال بلا أدوات، وسير عمل مع أدوات. ثم شغّل النموذجين بنفس التعليمات، ونفس صلاحيات الأدوات، ونفس إعدادات sampling، ونفس مستوى جهد الاستدلال، ونفس معايير التصحيح. البنشماركات العامة تخبرك من أين تبدأ؛ أما التقييم الداخلي فهو ما يخبرك أي نموذج يستحق الدخول إلى المنتج، خصوصًا عندما تكون بعض الدرجات العامة ذاتية الإبلاغ أو غير مؤكدة مستقلًا .
Comments
0 comments