في المقابل، تركز صفحة Anthropic الرسمية عن Claude Opus 4.7 على تحسينات استدعاء الأدوات والتخطيط وهندسة البرمجيات. وتشير الصفحة إلى قفزة من خانتين في دقة استدعاء الأدوات والتخطيط في سياق Hebbia، وإلى أن Claude Opus 4.7 حل في Rakuten-SWE-Bench عددًا من مهام الإنتاج يعادل 3 أضعاف ما حققه Opus 4.6.
هذه المواد الرسمية مفيدة لفهم تموضع كل نموذج. أما المقارنة الرقمية المباشرة بين GPT-5.5 وClaude Opus 4.7 في هذا المقال، فتعتمد أساسًا على ملخصات Vellum وKingy AI وMashable.
الأرقام التالية مأخوذة أساسًا من ملخص Vellum المتقابل عن GPT-5.5، مع الإشارة إلى أن ترتيب GPQA Diamond يظهر أيضًا في لوحة Vellum للصدارة.
أوضح نقطة لصالح Claude هي SWE-Bench Pro: سجل Claude Opus 4.7 نسبة 64.3% مقابل 58.6% لـ GPT-5.5، أي بفارق 5.7 نقطة مئوية.
هذا لا يعني أن Claude سيكون الأفضل في كل مشروع برمجي، لكنه يدعم قراءة عملية: إذا كان استخدامك الأساسي هو إصلاح بلاغات حقيقية، أو توليد تصحيحات، أو فهم اعتماديات موزعة على عدة ملفات، أو مراجعة طلبات دمج معقدة، فاجعل Claude Opus 4.7 ضمن أول جولة اختبار.
هناك إشارة إضافية من SWE-bench Verified. يصف BenchLM هذا الاختبار بأنه مجموعة فرعية من SWE-bench تم التحقق منها بشريًا، وتقيس قدرة النماذج على حل مشكلات GitHub حقيقية، ويضع Claude Opus 4.7 Adaptive عند 87.6%. لكن المصدر نفسه لا يقدم رقمًا مكافئًا لـ GPT-5.5 بالمنهجية ذاتها، لذلك لا يكفي وحده لإثبات تفوق Claude في SWE-bench Verified على GPT-5.5. القراءة الأكثر تحفظًا: Claude Opus 4.7 مرشح قوي جدًا في مهام إصلاح البرمجيات الواقعية.
أكبر فارق معلن لصالح GPT-5.5 يظهر في Terminal-Bench 2.0: نسبة 82.7% مقابل 69.4% لـ Claude Opus 4.7، أي تقدم بـ 13.3 نقطة مئوية.
ويتقدم GPT-5.5 أيضًا في BrowseComp وGDPval وOSWorld-Verified، بنتائج 84.4% مقابل 79.3%، و84.9% مقابل 80.3%، و78.7% مقابل 78.0% على التوالي.
المعنى العملي: إذا كان منتجك يعتمد على سطر الأوامر، أو المتصفح، أو نظام الملفات، أو عمليات نظام التشغيل، أو أتمتة متعددة الخطوات، فـ GPT-5.5 مرشح طبيعي للاختبار المبكر. لكن لا تختصر كل مهام الوكلاء في هذا الحكم. في MCP Atlas، يتقدم Claude Opus 4.7 بنتيجة 79.1% مقابل 75.3% لـ GPT-5.5، كما تؤكد Anthropic رسميًا تحسينات Claude Opus 4.7 في استدعاء الأدوات والتخطيط.
في المهام المهنية أو التجارية، النتيجة ليست من اتجاه واحد. يعرض ملخص Vellum تقدم GPT-5.5 في GDPval بنتيجة 84.9% مقابل 80.3% لـ Claude Opus 4.7.
لكن ملخص Kingy AI يضع Claude Opus 4.7 في المقدمة في FinanceAgent v1.1 بنتيجة 64.4% مقابل 60.0%، بينما يتقدم GPT-5.5 في OfficeQA Pro بنتيجة 54.1% مقابل 43.6%.
الأمر نفسه ينطبق على الاستدلال والرياضيات. في GPQA Diamond، يسجل Claude Opus 4.7 نسبة 94.2% مقابل 93.6% لـ GPT-5.5، أي فارقًا محدودًا قدره 0.6 نقطة مئوية. أما في FrontierMath T1–3، فيتقدم GPT-5.5 بوضوح أكبر: 51.7% مقابل 43.8%، بفارق 7.9 نقطة مئوية.
أما Humanity’s Last Exam فيكشف حدود الاعتماد على الملخصات العامة. يورد Kingy AI في بند دون أدوات أن GPT-5.5 سجل 41.4% وأن Claude Opus 4.7 سجل 46.9%؛ بينما تورد Mashable في بند دون أدوات أن GPT-5.5 سجل 40.6% وأن Claude Opus 4.7 سجل 31.2%. بسبب هذا التضارب الواضح في الملخصات المنشورة، لا يصلح هذا الاختبار وحده كدليل حاسم لاختيار النموذج.
إذا كان الاستخدام الأساسي هو إصلاحات على مستوى مستودع الكود، أو بلاغات GitHub حقيقية، أو طلبات دمج معقدة، أو توليد تصحيحات تحتاج مراجعة دقيقة، فابدأ بـ Claude Opus 4.7. نتائج SWE-Bench Pro وإشارة SWE-bench Verified تدعمان أنه ضمن أقوى المرشحين في هذا النوع من العمل.
إذا كان الاستخدام الأساسي هو تنفيذ أوامر، أو بحثًا وتصفحًا، أو عمليات داخل نظام التشغيل، أو وكلاء أتمتة، أو مهام مهنية قريبة مما يغطيه GDPval، فابدأ بـ GPT-5.5. لديه نقاط تفوق معلنة في Terminal-Bench 2.0 وBrowseComp وOSWorld-Verified وGDPval.
أما إذا كان سير العمل يجمع بين الكود، واستدعاء الأدوات، والتخطيط الطويل، وتحليل المستندات، وكتابة التقارير، فلا تبحث عن «بطل مطلق». GPT-5.5 يتقدم في عدة اختبارات تنفيذية، بينما يبرز Claude Opus 4.7 في SWE-Bench Pro وMCP Atlas وفي رواية Anthropic الرسمية حول الأدوات والتخطيط.
القيمة الحقيقية للاختبارات العامة أنها تقلص مساحة الاختيار. قبل اعتماد أي نموذج في الإنتاج، جهز مجموعة من مهامك الواقعية، وأخف أسماء النماذج عن المقيمين قدر الإمكان، وثبت صياغة التعليمات، وصلاحيات الأدوات، وميزانية السياق، ووقت التنفيذ، ومعايير التقييم.
إذا كنت تختبر GPT-5.5، فثبت أيضًا إعدادات الاستدلال مثل reasoning.effort، لأن وثائق OpenAI تعرض دعم النموذج لهذا التحكم.
ولا تكتف بمتوسط الدرجات. سجل على الأقل أربعة أشياء: هل أنجز النموذج المهمة؟ هل يمكن التحقق من الإجابة؟ ما تكلفة الإصلاح البشري بعده؟ وما زمن الاستجابة وتكلفة الاستدعاءات؟ في أنظمة الإنتاج، نموذج يخطئ أقل في المهام الحرجة قد يكون أفضل من نموذج يربح بضع نقاط في اختبار لا يشبه عملك.
الخلاصة العملية واضحة: GPT-5.5 وClaude Opus 4.7 لا يقدمان فائزًا مطلقًا. الأفضلية تنتقل مع طبيعة المهمة، ولذلك يجب أن يكون قرارك مبنيًا على سير العمل الفعلي لا على رقم واحد في جدول عام.
Comments
0 comments