السؤال عن الفائز في الهلوسة بين Claude Opus 4.7 وGPT-5.5 Spud يبدو في ظاهره سؤال ترتيب نماذج. لكن قراءة المصادر تقود إلى نتيجة أكثر تحفظًا: لدينا نموذج موثّق رسميًا هو Claude Opus 4.7، ولدينا اسم Spud يظهر في مسارات مجتمعية وتسريبات مزعومة، لا في وثائق إصدار أو صفحة نموذج رسمية من OpenAI ضمن المصادر المقدمة.
بعبارة أبسط: لا يصح بناء حكم مثل «Claude أقل هلوسة من Spud» أو العكس قبل التأكد من أن الطرفين موجودان كمنتجين رسميين قابلين للاختبار بالطريقة نفسها.
الخلاصة المدعومة بالأدلة
| السؤال | الجواب المدعوم بالمصادر |
|---|---|
| هل Claude Opus 4.7 موثّق؟ | نعم. Anthropic توثّق Claude Opus 4.7 وتذكر أن المطورين يمكنهم استخدام معرف API: claude-opus-4-7 [ |
| هل GPT-5.5 Spud موثّق كنموذج رسمي من OpenAI؟ | ليس في مصادر OpenAI الرسمية المقدمة هنا. هذه المصادر توثّق GPT-5 وGPT-5 mini وGPT-5.2-Codex وإرشادات GPT-5.4، لا نموذجًا عامًا باسم GPT-5.5 Spud [ |
| أين يظهر اسم Spud في هذه المجموعة من المصادر؟ | يظهر في منشورات Reddit وخيط طلب ميزة في مجتمع مطوري OpenAI، وليس في ملاحظات إصدار أو وثائق API رسمية [ |
| هل يوجد معيار هلوسة مباشر بين Claude Opus 4.7 وGPT-5.5 Spud؟ | لا. لا يقدم أي مصدر هنا اختبارًا مشتركًا بالمهام نفسها ونظام التقييم نفسه، وأي اختبار عادل يجب أن يفصل بين الأخطاء الواقعية وسلوك الامتناع عن الإجابة [ |
هذا لا يعني أن اسم Spud لا يمكن أن يظهر مستقبلًا، أو أن نموذجًا داخليًا بهذا الاسم غير موجود قطعًا. المعنى الأدق هو أن الأدلة الحالية لا تكفي للتعامل معه كنموذج رسمي من OpenAI أو لإعلان فائز في الهلوسة.
ما الذي نعرفه عن Claude Opus 4.7؟
أقوى دليل على Claude Opus 4.7 يأتي من Anthropic نفسها. الشركة تقول إن المطورين يمكنهم استخدام claude-opus-4-7 عبر Claude API [16]، كما تشير وثائقها إلى أن Claude Opus 4.7 يقدم خاصية task budgets، أي ميزانيات أو حدود مخصصة للمهام [
12].
هذه الخاصية مهمة لمن يبني منتجًا فوق النموذج، لأنها ترتبط بالتحكم في طريقة تنفيذ المهمة. لكنها ليست وحدها معيارًا للهلوسة. وجود إعدادات للتحكم في المهمة لا يخبرنا تلقائيًا متى سيقول النموذج: لا أعرف، أو متى سيتجنب اختلاق معلومة غير مؤكدة.
هناك إشارة مرتبطة بالصدق، لكنها لا تحسم المقارنة مع Spud. نقلت Mashable، استنادًا إلى بطاقة نظام Opus 4.7 من Anthropic، أن Claude Opus 4.7 حقق معدل صدق MASK بلغ 91.7%، وأنه أقل ميلًا للهلوسة أو المجاملة المفرطة من نماذج Anthropic السابقة وبعض نماذج الذكاء الاصطناعي المتقدمة الأخرى [14]. هذه معلومة مفيدة عن Claude، لكنها لا تكوّن اختبارًا مباشرًا ضد نموذج OpenAI موثّق باسم GPT-5.5 Spud.
ماذا تقول مصادر OpenAI بدلًا من ذلك؟
المصادر الرسمية المقدمة من OpenAI تثبت أسماء أخرى داخل عائلة GPT-5: GPT-5، وGPT-5 mini، وGPT-5.2-Codex، وإرشادات مطالبة مرتبطة بـGPT-5.4 [23][
25][
26][
29][
45]. أما Spud فيظهر في منشورات Reddit وخيط في OpenAI Developer Community [
7][
8][
10][
28].
الفرق هنا مهم. منشور في مجتمع مطورين أو Reddit قد يكون مؤشرًا على نقاش أو توقعات أو شائعات، لكنه ليس بطاقة نموذج، ولا معرف API، ولا إعلان إصدار رسمي. لذلك لا ينبغي استخدامه كطرف في معيار أداء وكأنه منتج موثّق.
الأهم من اسم Spud أن OpenAI نفسها نشرت تفسيرًا مباشرًا لمشكلة الهلوسة. تقول الشركة إن أساليب التدريب والتقييم الشائعة تكافئ التخمين بدل الاعتراف بعدم اليقين، وترى أن الأفضل للنموذج أن يوضح عدم يقينه أو يطلب توضيحًا بدل تقديم معلومة خاطئة بثقة [3].
مثال OpenAI في SimpleQA يوضح الفكرة جيدًا: نموذج gpt-5-thinking-mini يظهر مع 52% امتناعًا عن الإجابة، و22% دقة، و26% خطأ، بينما o4-mini يظهر مع 1% امتناع، و24% دقة، و75% خطأ [3]. على الورق، الدقة متقاربة. لكن الفرق في معدل الخطأ كبير، لأن النموذج الأول يختار الصمت أو التحفظ أكثر عندما لا يملك ثقة كافية [
3].
لماذا الامتناع عن الإجابة ليس ضعفًا دائمًا؟
في الاستخدام اليومي، نميل إلى تفضيل نموذج يجيب بسرعة وبثقة. لكن في مجالات مثل البحث، والطب، والقانون، والتحليل المالي، والدعم الفني عالي المخاطر، الإجابة الواثقة الخاطئة قد تكون أسوأ من جواب يقول: لا أملك دليلًا كافيًا.
هذا هو جوهر مفهوم عدم اليقين المُعاير. النموذج الجيد لا يرفض كل شيء، ولا يجيب عن كل شيء. بل يجيب عندما تكون الأدلة كافية، ويسأل أسئلة توضيحية عندما يكون الطلب غامضًا، ويمتنع عندما لا يمكن دعم الجواب.
الأبحاث تدعم هذا الاتجاه مع بعض التحفظات. دراسة من 2024 تشير إلى أن الامتناع المبني على عدم اليقين يحسن الصحة العامة للإجابات ويقلل الهلوسة ويزيد السلامة في إعدادات السؤال والجواب [1][
4]. كما يركز عمل I-CALM على الامتناع المعرفي في الأسئلة الواقعية ذات الإجابات القابلة للتحقق، ويلاحظ أن نماذج اللغة الكبيرة الحالية قد تفشل أحيانًا في الامتناع عندما ينبغي لها ذلك [
54]. ويدرس بحث عن التعلم المعزز المُعاير سلوكيًا كيفية تشجيع النماذج على الاعتراف بعدم اليقين عبر الامتناع [
61].
تتعامل مراجعات أوسع مع قياس عدم اليقين كأداة لاكتشاف الهلوسة، وتصف عدم اليقين المُعاير بأنه مفيد لتحديد متى نثق في إجابة النموذج، ومتى نؤجل القرار أو نتحقق خارجيًا [53][
55]. لكن الشرط الأساسي أن يكون الامتناع مُعايرًا: نموذج يقول «لا أعرف» طوال الوقت قد يكون آمنًا لكنه غير مفيد، ونموذج لا يقولها أبدًا قد يكون مفيدًا ظاهريًا لكنه خطير.
كيف تبدو مقارنة عادلة فعلًا؟
إذا أراد فريق تقني أو مشتري خدمة ذكاء اصطناعي اختبار Claude مقابل OpenAI في الهلوسة، فالطريق العادل ليس استخدام اسم غير موثّق. الأفضل هو بناء اختبار واضح على النحو الآتي:
- استخدم معرفات نماذج رسمية. في حالة Claude، يمكن اختبار
claude-opus-4-7. وفي حالة OpenAI، يجب اختيار نموذج موثّق مثل GPT-5 أو GPT-5 mini بدل تسمية Spud غير المثبتة في المصادر الرسمية المقدمة [16][
23][
25][
29].
- ابنِ مجموعة اختبار مختلطة. يجب أن تتضمن أسئلة قابلة للإجابة، وطلبات ناقصة التفاصيل، وأسئلة لا يمكن جوابها من المعلومات المتاحة. أبحاث الامتناع تدرس تحديدًا قيمة الرفض أو التوقف عندما يكون عدم اليقين عاليًا أو عندما لا يمكن تقديم جواب آمن [
1][
4].
- قيّم الامتناع وحده، لا كخطأ تلقائي. احسب الإجابات الصحيحة، والإجابات الخاطئة، والامتناع الصحيح، والامتناع الخاطئ. مسح أبحاث الامتناع يعرّف مقاييس مثل دقة الامتناع، ودقة قرارات الامتناع، واسترجاع حالات الامتناع الصحيحة [
68].
- افصل بين عدم اليقين الواقعي والرفض لأسباب السلامة. رفض تقديم تعليمات ضارة ليس السلوك نفسه كقول النموذج إنه لا يملك دليلًا كافيًا على واقعة معينة. I-CALM يركز تحديدًا على الامتناع المعرفي في الأسئلة الواقعية ذات الإجابات القابلة للتحقق [
54].
- اعرض الدقة، ومعدل الخطأ، ومعدل الامتناع معًا. مثال SimpleQA من OpenAI يبين أن نموذجًا يمتنع أكثر قد يحقق دقة قريبة لكنه يخطئ أقل بكثير [
3].
- ثبّت بيئة الاختبار. الوصول إلى الويب، وأدوات البحث، وحجم السياق، وتعليمات النظام، وطريقة الاسترجاع كلها قد تغير النتيجة. إذا أعطيت نموذجًا مصادر أفضل من الآخر فأنت تختبر الإعداد، لا النموذج وحده.
أسئلة سريعة
هل GPT-5.5 Spud حقيقي؟
ليس كنموذج رسمي من OpenAI ضمن الأدلة المقدمة هنا. المصادر الرسمية المذكورة توثّق GPT-5 وGPT-5 mini وGPT-5.2-Codex وإرشادات GPT-5.4، بينما يظهر Spud في Reddit وخيط طلب ميزة في مجتمع المطورين [7][
8][
10][
23][
25][
26][
28][
29][
45].
هل Claude Opus 4.7 يهلوس أقل من GPT-5.5 Spud؟
لا يمكن الجزم بذلك من هذه المصادر. Claude Opus 4.7 موثّق رسميًا [12][
16]، وهناك تقرير ثانوي عن معدل صدق MASK بلغ 91.7% [
14]. لكن لا يوجد هدف موثّق باسم GPT-5.5 Spud ولا معيار مشترك بين الاسمين [
7][
8][
10][
28][
68].
ما المقارنة الأفضل للمطورين والمشترين؟
قارن Claude Opus 4.7 بنماذج OpenAI موثّقة، وبالمهام نفسها، والأدوات نفسها، وتعليمات النظام نفسها، وقواعد التقييم نفسها. لا تكتفِ بالدقة؛ اجمع بينها وبين معدل الخطأ وسلوك الامتناع عن الإجابة [3][
68].
الزبدة
لا توجد في الأدلة المقدمة نتيجة موثوقة تقول إن Claude فاز أو إن Spud فاز في التحكم بالهلوسة. النتيجة المدعومة هي أضيق وأهم: Claude Opus 4.7 موثّق رسميًا؛ GPT-5.5 Spud غير موثّق في مصادر OpenAI الرسمية المقدمة؛ وأفضل اختبار للهلوسة يجب أن يكافئ عدم اليقين المُعاير، بما في ذلك الامتناع الصحيح عندما لا يمكن دعم الادعاء بالأدلة [3][
12][
16][
23][
25][
29][
45][
68].




