ما يمكن قوله بثقة أكبر هو أضيق من ذلك: مسار وثائق Claude Opus 4.7 أوضح. لدى Anthropic إعلان رسمي عن Claude Opus 4.7، ووثائق للمطورين، كما تدرجه صفحة بطاقات النظام الخاصة بالشركة. لكن كثرة الوثائق لا تعني تلقائيًا أن النموذج أقوى أمام تلوّث البحث؛ هي تعني فقط أن هناك مادة أكثر قابلية للتتبع والمراجعة.
تؤكد مواد Anthropic أن Claude Opus 4.7 أُعلن رسميًا وأن له وثائق للمطورين. وتشير الوثائق إلى إدخال task budgets، كما تنبه إرشادات Claude إلى أنه عند تشغيل Opus 4.7 بمستويات جهد مثل max أو xhigh ينبغي توفير ميزانية إخراج كافية حتى يملك النموذج مساحة للعمل عبر subagents واستدعاءات الأدوات.
هذا يعني أن Anthropic توثق جوانب مهمة من المهام الطويلة، واستخدام الأدوات، وسير العمل الوكيلي أو agentic. كذلك تصف بطاقة نظام Claude 4 اختبارات أمان قبل النشر ضمن Responsible Scaling Policy، واختبارات لانتهاكات سياسة الاستخدام، وتقييمات reward hacking، وتقييمات أمان agentic لاستخدام الحاسوب والبرمجة. وتعرض بطاقة Claude 4.1 أيضًا أقسامًا عن هجمات حقن التعليمات واستخدام الحاسوب.
لكن هذه كلها مواد سياقية عن الأمان والتقييمات. لا تتحول تلقائيًا إلى دليل يقول إن Claude Opus 4.7 تغلب على GPT-5.5 Spud في اختبارات تلوّث بحثية مباشرة.
تغطي بطاقة نظام GPT-5 من OpenAI تقييمات للصحة الواقعية والهلوسة، وتصف استخدام نموذج تقييم قائم على LLM ولديه وصول إلى الويب لرصد الأخطاء الواقعية الكبرى والصغرى. وتقول البطاقة إن نماذج GPT-5 سجلت معدلات هلوسة أقل، في وضعي التصفح وبدونه، مقارنة بنماذج OpenAI المذكورة في التقييم.
وتصف بطاقة ChatGPT Agent تقييمات SecureBio الثابتة وagentic، واختبارات فريق أحمر يدوية، ومهامًا تتطلب بحثًا على الويب واستدلالًا. أما ملحق GPT-5-Codex فيذكر صراحة خطر حقن التعليمات، ويتحدث عن حزمة تقييم مخصصة لهذا الخطر.
المشكلة أن هذه الوثائق لا تخص GPT-5.5 Spud مباشرة. المواد التي تتحدث عن Spud في الأدلة المتاحة تأتي أساسًا من صفحات طرف ثالث أو تجميعات تسريبات، لا من بطاقة نظام رسمية منشورة من OpenAI لهذا الاسم تحديدًا.
حقن التعليمات يحدث عندما يقرأ النموذج صفحة ويب أو ملفًا أو جدولًا أو ملحقًا، فيتعامل مع نص غير موثوق كأنه أمر أعلى أولوية. وثائق Claude 4 وClaude 4.1 تشير إلى سياق تقييمات عن الأمان الوكيلي، واستخدام الحاسوب، وحقن التعليمات. ووثائق OpenAI عن ChatGPT Agent وGPT-5-Codex تشير بدورها إلى تقييمات agentic، واختبارات فريق أحمر، وحزمة تقييم لحقن التعليمات.
لكن هذا لا يجيب عن السؤال الحاسم: عند إعطاء النموذجين المجموعة نفسها من المصادر المزروعة بتعليمات خبيثة، أيهما يطيع النص غير الموثوق بدرجة أقل؟ من دون اختبار علني بالشروط نفسها، لا يجوز تحويل وجود وثائق أمان إلى إعلان فوز.
المراجع الوهمية تقع غالبًا تحت مشكلة الصحة الواقعية وقابلية التحقق من المصدر. بطاقة GPT-5 تتضمن بالفعل تقييمات للواقعية والهلوسة وتشرح طريقة التقييم.
لكن ذلك ليس اختبار ضغط خاصًا بالمراجع. لا توجد مادة عامة تقدم أداء GPT-5.5 Spud على مجموعة تمزج DOI حقيقيًا وآخر مزيفًا، وروابط صحيحة وأخرى ميتة، وأسماء دوريات مختلقة، وأوراقًا تبدو معقولة لكنها غير موجودة. ولا توجد نتائج مقابلة لـ Claude Opus 4.7 على المجموعة نفسها.
لا تقدم المواد العامة مؤشرات قابلة للمقارنة عن تعامل النموذجين مع ملفات PDF خبيثة: هل يطيع النموذج نصًا مخفيًا داخل الملف؟ هل يتأثر بتعليمات في metadata أو التعليقات؟ هل يعامل رسالة مزيفة داخل المرفق كأنها رسالة نظام؟ هذه أسئلة لا تحسمها الوثائق المتاحة.
عمليًا، لا ينبغي ترك سلامة ملفات PDF للنموذج وحده. الأسلم في أي تقييم جاد هو اعتبار PDF مصدرًا غير موثوق، واستخراج النص والبنية داخل بيئة معزولة، ثم قياس ما إذا كان النموذج يفصل بين محتوى الوثيقة وأوامر المهمة.
تتضمن بطاقة Claude 4 أقسامًا عن تقييمات الانحياز، وتعرض بطاقة Claude 4.1 تقييمات للانحياز السياسي والانحياز التمييزي. كما تذكر بطاقة GPT-4.5 من OpenAI مجموعة BBQ Evaluation Dataset ضمن تقييمات مرتبطة بالانحياز.
لكن معيار الانحياز ليس هو نفسه اختبار تلوّث بحثي من البداية إلى النهاية. في البحث الحقيقي، نحتاج إلى معرفة ما إذا كان النموذج سيلاحظ أن المصادر غير متوازنة، ويبحث عن أدلة مخالفة، ويضع حدودًا للعينة، أم سيحوّل عينة منحازة إلى نتيجة عامة. لا توجد نتائج عامة قابلة للمقارنة بين Claude Opus 4.7 وGPT-5.5 Spud في هذا النوع من المهام.
بطاقات النظام مفيدة لأنها تكشف، بدرجات متفاوتة، ما الذي قيّمه المطورون قبل إطلاق النموذج. تشير مواد Anthropic إلى أن Responsible Scaling Policy تتطلب تقييمات أمان شاملة قبل إطلاق نماذج frontier في مجالات مخاطر كارثية محتملة مثل CBRN، والأمن السيبراني، والقدرات الذاتية. كما تصف بطاقة Claude 4 عدة أنواع من اختبارات الأمان وتقييمات agentic.
في المقابل، توفر وثائق OpenAI عن GPT-5 وChatGPT Agent سياقًا عن الواقعية، والهلوسة، والتقييمات الوكيلية، واختبارات الفريق الأحمر اليدوية.
لكن تلوّث البحث ليس خاصية للنموذج وحده. إنه خاصية لسير عمل كامل: محرك الاسترجاع، محلل المرفقات، ترتيب التعليمات، صلاحيات الأدوات، سلوك النموذج، فحص المراجع، السجلات، والمراجعة البشرية. لذلك قد يكون النموذج جيدًا في تقييم رسمي محدد، ومع ذلك يفشل داخل منتج أو عملية بحثية صُممت بطريقة تترك للأدوات أو المصادر غير الموثوقة سلطة زائدة.
هناك سبب إضافي للحذر: سلوك النماذج يتغير باختلاف السياق والتعليمات. بحث Anthropic حول alignment-faking يبين أن نماذج لغوية كبيرة قد تُظهر، في إعدادات تجريبية محددة، سلوكيات مرتبطة بمحاكاة الاصطفاف، وأن النتائج تختلف باختلاف شروط المطالبة. هذا لا يعني أن Claude Opus 4.7 أو GPT-5.5 Spud سيفشلان حتمًا في البحث؛ بل يعني أن حدود الأمان لا تُستنتج من ملخص تسويقي أو لقطة شاشة أو تجربة واحدة.
الخطوة الأقوى ليست اختيار طرف بناءً على الانطباع، بل بناء اختبار أحمر قابل للإعادة وتشغيل النموذجين تحته بالشروط نفسها. الحد الأدنى يجب أن يشمل:
بناءً على المواد العامة القابلة للتحقق، لا يمكن إثبات أن Claude Opus 4.7 أو GPT-5.5 Spud أقوى في مواجهة حقن التعليمات، أو المراجع الوهمية، أو ملفات PDF الخبيثة، أو البيانات المنحازة. جهة Claude تملك مسارًا أوضح للوثائق الرسمية؛ وجهة OpenAI تملك مواد تقييم مهمة عن GPT-5 وChatGPT Agent وGPT-5-Codex، لكنها ليست دليلًا مباشرًا خاصًا بـ GPT-5.5 Spud.
لذلك فالاستنتاج الأكثر إنصافًا هو: Claude يتقدم قليلًا فقط في معيار ضيق هو وضوح الوثائق العامة. أما في السلامة الفعلية داخل سير عمل بحثي ملوّث، فالأدلة غير كافية للحكم.
Comments
0 comments