| GPT-5.4، أو اختبار A/B قبل النقل |
| GPT-5.4 مصمم للمساعدين والوكلاء الإنتاجيين الذين يحتاجون إلى استدلال قوي متعدد الخطوات، وتوليف مدعوم بالأدلة، وسياقات طويلة |
قوة GPT-5.5 تظهر أكثر عندما تشبه المهمة بيئة عمل حقيقية: كتابة كود، قراءة معلومات كثيرة، تحليل بيانات، استخدام أدوات، أو تنفيذ خطوات متعددة للوصول إلى نتيجة قابلة للاستخدام. OpenAI تصف GPT-5.5 بأنه أذكى نماذجها حتى الآن ومصمم للمهام المعقدة مثل البرمجة والبحث وتحليل البيانات عبر الأدوات .
تقييمات الصحافة التقنية تسير في الاتجاه نفسه. CNBC قالت إن GPT-5.5 أفضل في البرمجة، واستخدام الكمبيوتر، والسعي إلى قدرات بحث أعمق . أما CNET فوصفته كنموذج عام يمكن للجميع استخدامه، لكنه سيكون على الأرجح أكثر فائدة للبحث والمهام الثقيلة مثل البرمجة، مع قدرات agentic تمكّنه من إنجاز مهام بشكل مستقل، وأداء أعلى من GPT-5.4 في اختبارات تقيس استخدام التطبيقات على الكمبيوتر وحل المسائل الرياضية
.
الأرقام التي نشرتها OpenAI تدعم هذه الصورة. في GDPval، وهو اختبار يقيس قدرة الوكلاء على إنتاج أعمال معرفية محددة جيداً عبر 44 مهنة، سجل GPT-5.5 نسبة 84.9%. وفي OSWorld-Verified، الذي يقيس قدرة النموذج على تشغيل بيئات كمبيوتر حقيقية بمفرده، وصل إلى 78.7%. وفي Tau2-bench Telecom، وهو اختبار لسير عمل خدمة عملاء معقدة، سجل 98.0% من دون ضبط خاص للـprompt .
ظهور GPT-5.5 لا يجعل GPT-5.4 نموذجاً ضعيفاً. OpenAI قدّمت GPT-5.4 باعتباره نموذجاً متقدماً يجمع أحدث التحسينات في الاستدلال والبرمجة وسير عمل الوكلاء، مع تطوير طريقة تعامله مع الأدوات وبيئات البرمجيات والمهام المهنية مثل الجداول والعروض التقديمية والمستندات .
الميزة العملية في GPT-5.4 أنه موثّق جيداً لسيناريوهات الإنتاج. إرشادات OpenAI للـprompt تقول إن GPT-5.4 مصمم لمساعدين ووكلاء إنتاجيين يحتاجون إلى استدلال متعدد الخطوات، وتوليف غني بالأدلة، وأداء موثوق على السياقات الطويلة . وتشير الوثائق نفسها إلى أنه يعمل بأفضل شكل عندما يحدد الـprompt بوضوح شكل المخرجات المتوقعة، وقواعد استخدام الأدوات، ومعايير اعتبار المهمة «منجزة»
.
بعبارة أبسط: إذا كان نظامك على GPT-5.4 مستقراً، وتم ضبطه حول prompts محددة وسلسلة أدوات ومعايير قبول واضحة، فلا تتعامل مع GPT-5.5 كزر ترقية تلقائي. الأفضل أن تختبر النموذجين على البيانات نفسها والمهام نفسها، ثم تقارن الجودة، السرعة، معدلات الخطأ، والنتائج التي تهم منتجك فعلاً.
الاختبارات المنشورة تعطي إشارة قوية إلى أن GPT-5.5 يتقدم في فئات كثيرة، لكنها لا تصلح وحدها كحكم نهائي على كل حالة استخدام.
في اختبارات الصحة، حقق GPT-5.5 درجة 56.5 في HealthBench بعد ضبط الطول، أي أعلى من GPT-5.4 بمقدار 2.5 نقطة. وفي HealthBench Hard سجل 31.5، بفارق 2.4 نقطة، وفي HealthBench Professional سجل 51.8، بفارق 3.7 نقطة. لكن في HealthBench Consensus حصل GPT-5.5 على 95.6، أي أقل من GPT-5.4 بمقدار 0.7 نقطة . هذا مثال جيد على أن عبارة «الأقوى» تحتاج دائماً إلى سؤال إضافي: الأقوى في أي اختبار، ولأي مهمة؟
في الأمن السيبراني، ذكرت بطاقة النظام من OpenAI أن UK AISI اعتبرت GPT-5.5 أقوى نموذج إجمالاً في مهام سيبرانية ضيقة، لكنها أوضحت أيضاً أن الأداء يقع ضمن هامش الخطأ. وفي مهام ضيقة على مستوى الخبراء، حقق GPT-5.5 نتيجة pass@5 بلغت 90.5% ± 12.9%، مقابل 71.4% ± 19.8% لـGPT-5.4 .
وهناك ملاحظة مهمة عند قراءة أي benchmark: في تعريف GPT-5.4، قالت OpenAI إن الاختبارات أُجريت في بيئة بحثية، وقد تعطي في بعض الحالات نتائج مختلفة قليلاً عن ChatGPT في بيئة الإنتاج . لذلك، الاختبارات مفيدة كبوصلة، لكنها لا تغني عن تجربة النموذج على عملك الحقيقي.
إذا كنت تبدأ مشروعاً جديداً وتحتاج أعلى قدرة متاحة للبرمجة، البحث، تحليل البيانات، أو وكيل يستخدم أدوات ويتنقل بين خطوات متعددة، فابدأ بتجربة GPT-5.5. توصيف OpenAI وأرقامها المنشورة يضعانه في موقع أقوى لهذا النوع من العمل .
أما إذا كنت تدير مساعداً أو وكيلاً إنتاجياً مضبوطاً على GPT-5.4، فالأفضل أن تختبر قبل أن تنقل. GPT-5.4 لا يزال موصوفاً من OpenAI كنموذج مناسب للأنظمة الإنتاجية التي تحتاج استدلالاً متعدد الخطوات، وتوليفاً موثقاً، وسياقات طويلة .
الخلاصة المتوازنة: GPT-5.5 هو الخيار الأقوى في معظم الحالات التي تتطلب أقصى قدرة، خصوصاً مع الكود والبحث وتحليل البيانات وسير العمل المعتمد على الأدوات. لكن GPT-5.4 يظل اختياراً موثوقاً للأنظمة التي تم تحسينها وتشغيلها بالفعل. القرار الصحيح لا يُحسم باسم الإصدار وحده، بل باختبار عملي على مهامك وبياناتك ومعايير النجاح التي تعتمدها.
Comments
0 comments