إذا أردت إجابة قصيرة عن Benchmark أو اختبار أداء GPT‑5.5، فالرقم الأنظف هو: 84.9٪ على GDPval. تقول OpenAI إن GDPval يقيس قدرة وكلاء الذكاء الاصطناعي على إنتاج عمل معرفي محدد جيداً عبر 44 مهنة.[1]
لكن لا تتعامل مع هذه النسبة كأنها درجة ذكاء عامة أو حكم نهائي على كل استخدامات النموذج. هي تقيس نوعاً معيناً من المهام المهنية والمعرفية، لا البرمجة وحدها، ولا المعلوماتية الحيوية وحدها، ولا كل مؤشرات المقارنة الخارجية.[1]
الرقم الذي يصلح كإجابة مختصرة
الصياغة الأدق عند الحديث العام هي:
يحقق GPT‑5.5، بحسب OpenAI، نتيجة 84.9٪ على GDPval، وهو معيار يختبر إنتاج عمل معرفي محدد جيداً عبر 44 مهنة.[
1]
هذه الجملة مهمة لأنها لا تذكر الرقم وحده، بل تذكر ما يقيسه. واسم GDPval هنا هو اسم معيار تقييم؛ أي أن المقصود ليس رقماً اقتصادياً مباشراً، بل اختبار لأداء النموذج في مهام عمل معرفية محددة.[1]
لماذا لا تكفي النسبة وحدها؟
الخطأ الشائع هو وضع كل النسب في سطر واحد وكأنها جاءت من الامتحان نفسه. في الواقع، كل معيار يسأل سؤالاً مختلفاً:
- GDPval يسأل: هل يستطيع النموذج إنتاج مخرجات عمل معرفي محددة بوضوح عبر مجموعة واسعة من المهن؟[
1]
- Expert‑SWE أقرب إلى تقييم مهام البرمجة وتطوير البرمجيات.[
8]
- BixBench يدور حول مهام في المعلوماتية الحيوية.[
10]
- Artificial Analysis Intelligence Index مؤشر خارجي للمقارنة العامة بين النماذج، وليس اختباراً رسمياً واحداً من OpenAI.[
3]
لذلك، السؤال الأفضل ليس: أي رقم هو الأعلى؟ بل: أي معيار يشبه استخدامك الفعلي للنموذج؟
أبرز الأرقام المتداولة في سياقها
| المعيار أو المقارنة | الرقم المنشور | ماذا يقيس؟ | كيف يُقرأ الرقم؟ |
|---|---|---|---|
| GDPval | 84.9٪ | عمل معرفي محدد جيداً عبر 44 مهنة | الرقم مذكور مباشرة في إعلان OpenAI، لذلك هو أنسب إجابة مختصرة عند الحديث العام عن GPT‑5.5.[ |
| Expert‑SWE | 73.1٪ | مهام برمجة؛ ورد أنه تقييم داخلي لمهام يُقدّر إنجازها بنحو 20 ساعة | مهم لمجال تطوير البرمجيات، لكنه لا يقيس الشيء نفسه الذي يقيسه GDPval.[ |
| BixBench | 80.5٪ | معيار واقعي في المعلوماتية الحيوية | مفيد عند الحديث عن هذا المجال تحديداً، مع التنبيه إلى أن توثيقه في المصادر المتاحة هنا ليس مباشراً مثل رقم GDPval المنشور من OpenAI.[ |
| Artificial Analysis Intelligence Index | المركز الأول بفارق 3 نقاط | مؤشر خارجي واسع للمقارنة بين النماذج | يعطي صورة مقارنة عامة، لكنه ليس اختباراً رسمياً منفرداً من OpenAI.[ |
ماذا يقول مؤشر Artificial Analysis؟
بحسب Artificial Analysis، يتصدر GPT‑5.5 مؤشر Intelligence Index بفارق 3 نقاط.[3] لكن التفصيل مهم: يذكر المصدر نفسه أن OpenAI تتقدم في خمسة من الاختبارات الرئيسية، بينما تأتي في ثلاثة اختبارات أخرى خلف Gemini 3.1 Pro Preview.[
3]
بمعنى آخر، المركز الأول في مؤشر خارجي لا يعني أن النموذج يفوز في كل اختبار فرعي. هو يعني أنه يتصدر وفق طريقة حساب ذلك المؤشر تحديداً.[3]
انتبه للأرقام اللامعة خارج سياقها
تظهر أحياناً أرقام أخرى في العناوين، مثل 91.7٪ في سياق قدرات الذكاء الاصطناعي القانونية، أو 82.7٪ في سياق agentic coding.[4][
5] هذه الأرقام قد تكون مفيدة لمن يهتم بتلك الحالات المتخصصة، لكنها ليست أفضل إجابة عامة عن أداء GPT‑5.5 إذا لم يكن واضحاً ما هو الاختبار، ومن هي مجموعة المقارنة، وما الذي تقيسه النتيجة بالضبط.
أي رقم تقتبس؟
إذا كان الحديث عاماً عن أداء GPT‑5.5، فاقتبس هذا:
GPT‑5.5 يسجل 84.9٪ على GDPval، وهو معيار تقول OpenAI إنه يختبر قدرة الوكلاء على إنتاج عمل معرفي محدد جيداً عبر 44 مهنة.[
1]
أما إذا كان سؤالك محدداً، فغيّر المعيار وفق المجال:
- العمل المعرفي العام: 84.9٪ على GDPval.[
1]
- تطوير البرمجيات: 73.1٪ على Expert‑SWE.[
8]
- المعلوماتية الحيوية: 80.5٪ على BixBench، مع توضيح أن مصدره المتاح هنا أضعف من رقم OpenAI المباشر.[
10][
1]
- مقارنة عامة بين النماذج: المركز الأول في Artificial Analysis Intelligence Index بفارق 3 نقاط.[
3]
الخلاصة
أفضل رقم مختصر يمكن استخدامه عن GPT‑5.5 هو 84.9٪ على GDPval.[1] قوته أنه موثق مباشرة من OpenAI وأن نطاقه واضح: عمل معرفي محدد جيداً عبر 44 مهنة.[
1] أما بقية الأرقام، فقد تكون أهم في مجالاتها، لكنها يجب أن تُذكر دائماً مع اسم الاختبار وما يقيسه.




