لكن المواد المتاحة لا تثبت أن هذا الرقم يشمل التكلفة الكاملة للتطوير، أو تكلفة ما بعد التدريب، أو تكلفة التشغيل، أو كفاءة العتاد، أو السعر التجاري النهائي. لذلك فالرقم مثير، لكنه ليس وحده الصورة كاملة.
كما تقول مدونة بايدو إن ERNIE 5.1 حصل على ترقيات في قدرات الوكلاء، والاستدلال، والإبداع، بدعم من تعلّم معزز كامل اللاتزامن ومفصول البنية، إلى جانب ما بعد تدريب موجّه للوكلاء على نطاق واسع . وتشير المدونة نفسها إلى أن النموذج احتل المركز الأول في الصين على Arena Search Arena
.
غالباً ما يُقدَّم سباق الذكاء الاصطناعي كمسابقة في الحجم: معاملات أكثر، بيانات أكثر، وقدرة حوسبة أكبر. إعلان ERNIE 5.1 يلمّح إلى مسار مختلف: الحفاظ على أداء قوي مع تقليل بصمة النموذج وتجنب دورة تدريب أولي كاملة ومكلفة .
إذا ثبتت هذه المقاربة عملياً، فقد تصبح الأفضلية أقل ارتباطاً بمن يملك النموذج الأكبر، وأكثر ارتباطاً بمن يحسن هندسة معادلة التكلفة مقابل الأداء: كيف تعيد استخدام أساس سابق؟ كيف تختار بنية أكثر كفاءة؟ كيف تقلل الحسابات النشطة؟ وكيف تحسن سلوك النموذج عبر ما بعد التدريب؟ بايدو تجعل هذا الطرح واضحاً في مواد إطلاق ERNIE 5.1 .
يمكن تلخيص وصفة بايدو في أربعة عناصر مترابطة.
تقول بايدو إن ERNIE 5.1 يرث أساس التدريب الأولي من ERNIE 5.0 . هذه هي نقطة الارتكاز في قصة التكلفة: النموذج يبدو مقدماً كنسخة مشتقة من أساس قائم، لا كمشروع تدريب تأسيسي جديد بالكامل.
بحسب بايدو، ضغط ERNIE 5.1 إجمالي المعاملات إلى نحو الثلث، وخفّض المعاملات النشطة إلى نحو النصف . إجمالي المعاملات يعبر عن حجم النموذج الكامل، أما المعاملات النشطة فهي الجزء المستخدم فعلياً أثناء عملية حسابية معينة. تقليل الاثنين معاً هو ما يجعل الإعلان أقرب إلى قصة كفاءة لا مجرد قصة قدرات.
يوضح التقرير التقني لـ ERNIE 5.0 نهجاً يسمى «التدريب المرن»، حيث يمكن لجولة تدريب أولي واحدة أن تنتج عائلة من النماذج ذات مقايضات مختلفة بين السعة والكفاءة . ويقول التقرير إن ذلك يتم عبر أخذ عينات ديناميكية من نماذج فرعية تختلف في العمق والعرض ودرجة الندرة في التوجيه، مع تمكين هذه النماذج الفرعية من وراثة المعرفة من النموذج الكامل لمراحل ما بعد التدريب اللاحقة
.
هذا مهم لفهم ERNIE 5.1 لأنه يشرح منطق «عائلة النماذج» خلف ادعاء بايدو. الفكرة ليست فقط تدريب نموذج أكبر، بل بناء أساس مرن يمكن استخراج تكوينات أكثر كفاءة منه لاحقاً .
تقول بايدو إن ERNIE 5.1 يستخدم تعلماً معززاً كامل اللاتزامن ومفصول البنية، إلى جانب ما بعد تدريب موجّه للوكلاء على نطاق واسع، لتحسين قدرات الوكيل والاستدلال والإبداع . بمعنى آخر، لا تقول بايدو إنها جعلت النموذج أصغر فقط؛ بل تقول أيضاً إن مراحل ما بعد التدريب ساعدت في تشكيل قدراته النهائية
.
السؤال الأكبر هو التحقق. المواد العامة المتاحة لا تقدم حساباً تفصيلياً لميزانية التدريب، أو إعدادات العتاد، أو مزيج البيانات، أو مدة التدريب، أو معدل استخدام المسرّعات، أو تكلفة ما بعد التدريب، أو القائمة الدقيقة لـ«النماذج القابلة للمقارنة» التي بُني عليها رقم 6٪ .
هذا لا يجعل الادعاء بلا معنى. لكنه يعني أن الرقم لا ينبغي التعامل معه كمعيار صناعي مستقل ومدقق. القراءة الأكثر تحفظاً، والأقرب لما تدعمه المصادر، هي أن بايدو تقول إن ERNIE 5.1 حافظ على أداء تأسيسي متقدم عند حجمه عبر الوراثة من ERNIE 5.0، وضغط المعاملات، والاستفادة من أفكار التدريب المرن، وتحسينات ما بعد التدريب .
أهمية ERNIE 5.1 أنه يعيد صياغة قصة بايدو في الذكاء الاصطناعي حول الكفاءة لا حول الحجم الخام فقط. تقول الشركة إن النموذج يرث أساس ERNIE 5.0، ويقلص إجمالي المعاملات والمعاملات النشطة، ويحقق أداءً تأسيسياً متقدماً عند حجمه بتكلفة تدريب أولي تقارب 6٪ من تكلفة نماذج قابلة للمقارنة .
لكن الادعاء لم يصبح بعد حقيقة محسومة بالكامل من خلال المواد العامة. إلى أن تكشف بايدو، أو جهات تقييم مستقلة، مزيداً من التفاصيل حول خط المقارنة والعتاد والبيانات وطريقة احتساب رقم 6٪، فإن ERNIE 5.1 يجب أن يُقرأ كادعاء جاد في كفاءة التدريب، لا كمعيار تكلفة مثبت بصورة نهائية.
Comments
0 comments