لكن الصياغة الأكثر أمانة هي هذه: لا توجد حتى الآن مقارنة علنية تجمع النموذجين على السؤال نفسه، والأدوات نفسها، والقيود نفسها، ومعيار موحد لقياس معدل الخطوات المفقودة أو الانحراف عن الهدف. المتاح هو مزيج من تموضع رسمي، ووثائق منتج، ونتائج benchmarks منفردة، ومقارنات طرف ثالث؛ كلها مفيدة لتحديد من تختبر أولًا، لكنها لا تثبت فوزًا مطلقًا في كل مهام البحث الطويل.
البحث الطويل ليس مهارة واحدة. عادة يحتاج إلى أربع قدرات مختلفة:
BrowseComp أقرب إلى قياس البحث عبر الويب وتوليف المصادر المتعددة، بينما GeneBench أقرب إلى تحليل علمي متعدد المراحل في بيانات الوراثة والبيولوجيا الكمية، وMCP-Atlas أقرب إلى تنسيق الأدوات في سير عمل وكيل. هذه المؤشرات تلتقط أجزاء مهمة من الصورة، لكنها لا تساوي اختبارًا كاملًا يقول إن النموذج لن ينسى خطوة أو ينحرف عن هدف بحثك.
أوضح إشارة لصالح GPT-5.5 تأتي من مهام البحث والاسترجاع. تقرير طرف ثالث يضع GPT-5.5 عند 84.4% في BrowseComp مقابل 79.3% لـ Claude Opus 4.7، ويقول إن GPT-5.5 لديه تقدم أوضح في استرجاع الويب بمستوى بحثي وتوليف المصادر المتعددة. إذا كان سير عملك يشبه عمل باحث يفتح عشرات الصفحات، يفرز المصادر، ثم يلخص نقاط الاتفاق والاختلاف، فهذا سبب وجيه لاختبار GPT-5.5 أولًا.
هناك أيضًا إشارة من GeneBench. تقول OpenAI إن GPT-5.5 أظهر تحسنًا واضحًا على GPT-5.4 في هذا التقييم، وهو مخصص لتحليل بيانات علمية متعدد المراحل في الوراثة والبيولوجيا الكمية، مع مشكلات تشمل بيانات غامضة أو خاطئة، وإشرافًا محدودًا، وعوامل مربكة مخفية، وإخفاقات في ضبط الجودة، وتنفيذًا وتفسيرًا صحيحين لطرق إحصائية حديثة. هذا ليس اختبارًا مباشرًا للبحث العام على الويب، لكنه يدعم فكرة أن GPT-5.5 موجه جيدًا للمهام الطويلة الكثيفة بالبيانات والتي تحتاج إلى مراجعة الحكم أثناء الطريق.
كما يصف مركز مساعدة OpenAI نسخة GPT-5.5 Thinking بأنها أقوى نموذج تفكير في ChatGPT، ومصممة للعمل الواقعي الصعب، مع قدرة أفضل على فهم الأهداف المعقدة، واستخدام الأدوات، وفحص العمل، ودفع مزيد من المهام متعددة الخطوات إلى الاكتمال. هذه صفات قريبة من البحث الطويل، لكنها لا تغني عن اختبارك الداخلي لمعدل الخطوات المفقودة.
أدلة Claude Opus 4.7 تتركز أكثر حول الوكلاء طويلي النفس. AWS Bedrock تصفه بأنه أقوى نموذج Anthropic متاح عمومًا، مع تقدم في البرمجة، وسير العمل المؤسسي، والمهام الوكيلية طويلة التشغيل، وتذكر له نافذة سياق تبلغ 1M توكن وحدًا أقصى للمخرجات يبلغ 128K توكن. Microsoft Foundry تقدمه بالمنطق نفسه تقريبًا، وتربطه بالمشروعات طويلة الأفق وإدارة العمل المعقد عبر جلسات متعددة في بيئات المؤسسات.
صفحة Anthropic الخاصة بالنموذج تضيف أن Opus 4.7 يستخدم adaptive thinking، أي يضبط مقدار التفكير بحسب تعقيد المهمة. وفي سيناريوهات وكلاء الذكاء الاصطناعي، تقول Anthropic إنه ينسق مهامًا معقدة متعددة الأدوات، ويستخدم الذاكرة للتعلم عبر الجلسات، ويدفع العمل طويل التشغيل إلى الأمام مع إشراف أقل.
الميزة الأكثر اتصالًا بسؤال فقدان التركيز هي task budgets. حسب وثائق Anthropic، تعطي هذه الميزة Claude تقديرًا تقريبيًا لعدد التوكنات المستهدف لدورة وكيل كاملة، بما يشمل التفكير، واستدعاءات الأدوات، ونتائج الأدوات، والمخرج النهائي. يرى النموذج عدادًا تنازليًا ويستخدمه لترتيب الأولويات وإنهاء المهمة بسلاسة مع استهلاك الميزانية. هذا لا يعني أنه لن ينسى خطوة أبدًا، لكنه تصميم مباشر لمشكلة شائعة في المهام الطويلة: الاسترسال ثم الوصول إلى النهاية بلا تسليم منظم.
وتشير مقارنة طرف ثالث أيضًا إلى أن Claude Opus 4.7 يتقدم في MCP-Atlas، وهو مؤشر موجه إلى تنسيق الأدوات، بنتيجة 79.1% مقابل 75.3% لـ GPT-5.5، كما يتقدم في SWE-Bench Pro بنتيجة 64.3% مقابل 58.6%. هذه أرقام تميل لصالح Claude في المسارات كثيفة الأدوات والبرمجة، لكنها لا تعني بالضرورة أنه أفضل في كل بحث ويب متعدد المصادر، حيث يميل BrowseComp لصالح GPT-5.5.
بدل السؤال العام: أي نموذج أكثر ثباتًا؟ اصنع اختبارًا صغيرًا يشبه عملك الحقيقي. ثبّت سؤال البحث، والأدوات المتاحة، وقيود الزمن أو التوكنات، وصيغة الاقتباس، وقائمة التحقق، ومعيار التقييم. عندها يصبح الحكم أقل انطباعية.
راقب خمسة أنواع من الأخطاء:
للمهام الحساسة، يمكن استخدام النموذجين معًا بدل اختيار واحد. اجعل GPT-5.5 يبني خريطة المصادر وقائمة نقاط التعارض، ثم اجعل Claude Opus 4.7 يراجع البنية والثغرات وفق قائمة تحقق. في النهاية، اطلب من النموذجين معًا قائمة بما بقي منخفض الثقة، وما لم يُنجز، وما يحتاج إلى تحقق بشري. وبعد ذلك تبقى المراجعة البشرية ضرورية للأرقام، والتواريخ، والأسماء، والاقتباسات، وسلسلة الاستدلال.
لا يوجد فائز مطلق بين Claude Opus 4.7 وGPT-5.5 في كل مهام البحث الطويل. إذا كان جوهر المهمة هو البحث عبر الويب، وقراءة صفحات متعددة، ودمج مصادر متعارضة، فـ GPT-5.5 هو المرشح الأول للاختبار. وإذا كان جوهر المهمة هو وكيل طويل التشغيل، كثيف الأدوات، يحتاج إلى إدارة قائمة تحقق وتسليم منظم، فـ Claude Opus 4.7 هو المرشح الأول للاختبار.
المعايير العامة تساعدك على ترتيب التجارب، لكنها لا تستطيع إثبات أي نموذج سيكون أهدأ وأقل سهوًا داخل سير عملك أنت. الاختبار الحقيقي هو مجموعة مهام ثابتة من واقع عملك، تقيس فيها السهو، والانحراف، وجودة الإحالات، وحجم التدخل البشري المطلوب بعد التسليم.
Comments
0 comments