كلمة “برمجة” واسعة جدًا. نموذج قد يكون ممتازًا في تشغيل أوامر الطرفية، قراءة نتائج الاختبارات، والتنقل بين الأدوات، لكنه ليس بالضرورة الأفضل في تعديل قاعدة كود قائمة لحل issue محدد.
في Terminal-Bench 2.0، يتقدم GPT-5.5 بوضوح: 82.7% مقابل 69.4% لـ Claude Opus 4.7. كما تناولت VentureBeat تفوق GPT-5.5 في سياق معيار Terminal-Bench 2.0 تحديدًا، لا بوصفه حكمًا شاملًا على كل أنواع البرمجة.
لكن الصورة تنقلب عند النظر إلى SWE-Bench Pro. هناك، حصل Claude Opus 4.7 على 64.3% مقابل 58.6% لـ GPT-5.5، وتصف Yahoo Tech المعيار بأنه يقيس حل مشكلات GitHub الواقعية.
لذلك، إذا كان مشروعك يشبه وكيلًا يعمل داخل الطرفية: يشغل أوامر، يقرأ logs، ينفذ اختبارات، ويتنقل بين أدوات؛ فـ GPT-5.5 يستحق أن يكون الاختبار الأول. أما إذا كان المطلوب إصلاح bug داخل مستودع حقيقي، وفهم تبعات التعديل على الاختبارات والبنية القائمة، فـ Claude Opus 4.7 يجب أن يكون في المقارنة من البداية.
مع ذلك، لا ينبغي التعامل مع الأرقام كأنها حكم نهائي. نقلت Yahoo Tech أن OpenAI أشارت إلى احتمال memorization في جزء من مسائل Claude على SWE-Bench Pro، كما وضع RDWorld ملاحظة memorization concern على هذا البند. المعنى العملي: اختبر النموذجين على مستودعاتك، بنفس التعليمات، ونفس الاختبارات، قبل اتخاذ قرار إنتاجي.
إذا كان هدفك توليد صفحة هبوط، لوحة تحكم SaaS، أو شاشة تطبيق أولية، فالأرقام البرمجية وحدها لا تكفي. التصميم الجيد لا يعني فقط أن الكود يعمل؛ بل أن ترتيب المعلومات واضح، والمسافات منطقية، والمكونات لا تبدو كقالب واحد مكرر.
في تقييم Appwrite، كان Claude Opus 4.7 أقوى في أعمال UI-first، إذ ينتج تخطيطات ذات هرمية أوضح، وتايبوغرافيا أكثر إحكامًا، وشبكات بطاقات أقل تكرارًا من البداية.
هذا ليس معيارًا كميًا مثل Terminal-Bench أو SWE-Bench، بل تقييم طرف ثالث لجودة المخرجات البصرية. ومع ذلك، فهو مهم لفرق المنتج التي تريد مسودة واجهة يمكن تطويرها بدل إعادة بنائها. إذا استخدمت GPT-5.5 لهذا النوع من العمل، فالأفضل أن تكون التعليمات أكثر تحديدًا: بنية الصفحة، نظام المسافات، نمط المكونات، وأولوية المعلومات.
في اختبارات التفكير العامة، لا تبدو الصورة محسومة. في GPQA Diamond، سُجل لـ GPT-5.5 معدل 93.6% مقابل 94.2% لـ Claude Opus 4.7، مع ملاحظة RDWorld أن هذا البند في حالة تشبع تقريبًا. أي أن الفارق الصغير هنا لا يكفي وحده لبناء قرار شراء أو ترحيل.
في HLE بلا أدوات، يتقدم Claude Opus 4.7 برقم 46.9% مقابل 41.4% لـ GPT-5.5. أما في BrowseComp، فيظهر GPT-5.5 برقم أعلى: 84.4% مقابل 79.3%، لكن الجدول نفسه يضع ملاحظة contamination flagged.
الخلاصة: للبحث المعقد أو التحليل غير البرمجي، لا تعتمد على معيار واحد. جرّب عينة من أسئلتك الحقيقية: وثائق داخلية، روابط، جداول، تعليمات طويلة، ومخرجات مطلوبة بتنسيق محدد.
أعلنت OpenAI أن GPT-5.5 سيصل إلى واجهتَي Responses وChat Completions API بسعر $5 لكل مليون توكن إدخال و$30 لكل مليون توكن إخراج، مع نافذة سياق قدرها مليون توكن. كما ذكرت أن Batch وFlex بنصف سعر API القياسي، وأن Priority processing بسعر 2.5 ضعف السعر القياسي.
في المقابل، توضح Anthropic أن تسعير Claude Opus 4.7 يبدأ من $5 لكل مليون توكن إدخال و$25 لكل مليون توكن إخراج، مع إمكانية خفض التكلفة حتى 90% عبر prompt caching و50% عبر batch processing.
بالسعر القياسي، الإدخال متساوٍ تقريبًا، لكن الإخراج أرخص في Claude Opus 4.7 بفارق $5 لكل مليون توكن. إذا كانت مهامك تولد كودًا طويلًا، وثائق، شروح refactoring، أو تقارير مطولة، فقد يتحول هذا الفارق إلى رقم مهم. لكن التكلفة الفعلية ستعتمد على طول المخرجات، عدد المحاولات، نجاح التخزين المؤقت، واستخدام المعالجة الدفعية.
وتجدر الإشارة إلى أن OpenAI تقول إن GPT-5.5 أكثر ذكاءً وكفاءة في استخدام التوكنات من GPT-5.4، لكن هذا لا يعني تلقائيًا أنه أرخص من Claude Opus 4.7 في كل حالة استخدام.
إذا كان فريقك يعمل أصلًا داخل ChatGPT أو Codex أو OpenAI API، فقد يكون اختبار GPT-5.5 أسهل تشغيليًا. أعلنت OpenAI توفر GPT-5.5 في Codex وChatGPT، وأشارت إلى إتاحته قريبًا لمطوري API عبر Responses وChat Completions.
أما Claude Opus 4.7 فيُستخدم عبر Claude API بالمعرّف claude-opus-4-7. لكن Anthropic تنبه إلى أن Opus 4.7 يتضمن تغييرات API غير متوافقة بالكامل مع Opus 4.6، لذلك يحتاج من يرقّي تكاملًا قائمًا إلى مراجعة مسار الترحيل.
هناك أيضًا عامل لا يظهر في الجداول: الغلاف التشغيلي حول النموذج. في تقرير لاحق عن جودة Claude Code، ذكرت Anthropic أن تغييرًا في system prompt تسبب في هبوط 3% في أحد التقييمات لكل من Opus 4.6 وOpus 4.7، ثم أعادت التغيير في إصدار 20 أبريل. هذا يذكّر بأن جودة النموذج في المنتج النهائي لا تأتي من النموذج وحده، بل من التعليمات النظامية، الأدوات، واجهة الاستخدام، وطريقة التشغيل.
لا تدعم الأدلة المتاحة جملة بسيطة مثل: GPT-5.5 يهزم Claude Opus 4.7 في كل شيء. الأدق أن نقول إن GPT-5.5 يعطي إشارة أقوى في مهام الطرفية والوكلاء، بينما يملك Claude Opus 4.7 نقاط قوة واضحة في حل مشكلات GitHub الواقعية، وتوليد واجهات UI أولية، وتكلفة الإخراج القياسية.
أفضل استراتيجية الآن ليست اختيار نموذج واحد لكل شيء، بل بناء توجيه داخلي للمهام. اجعل GPT-5.5 الخيار الأول للأتمتة الطرفية وسير العمل داخل منظومة OpenAI، واجعل Claude Opus 4.7 الخيار الأول لإصلاح المستودعات، ومسودات الواجهات، والأعمال كثيرة الإخراج.
Comments
0 comments