إليكم ما يحدث تحت الغطاء:
نماذج اللغة الكبيرة لا ترى الحروف الفردية. بدلاً من ذلك، تقوم بتقسيم النص إلى وحدات رمزية (Tokens) — أجزاء من حرف واحد أو أكثر — باستخدام خوارزميات مثل 'ترميز زوج البايت' (BPE). قد تصبح كلمة مألوفة مثل 'Google' وحدة رمزية واحدة، بينما يمكن أن تنقسم 'journalism' إلى أجزاء رمزية فرعية مثل ['journ', 'alism']. النموذج لا يخزن أو يعالج تسلسل الحروف الخام أبداً.
لا يوجد وعي فطري بالحروف. نظراً لأن بيانات التدريب محوّلة إلى وحدات رمزية، لا يتعلم النموذج أبداً عدّ الحروف الفردية بشكل فطري. يمكنه فقط تقريب المعرفة على مستوى الحروف عن طريق مطابقة الأنماط مع التهجئات المحفوظة من مجموعة بيانات التدريب الخاصة به . عندما تسأل عن عدد الحروف، فأنت تجبر النموذج على إجراء هندسة عكسية لمعلومات الحروف من نص لم يُخزّن حرفاً بحرف.
طبقة التضمين تمثّل بنية الحروف بشكل ناقص. تظهر الأبحاث أن تضمينات الوحدات الرمزية لا تشفّر معلومات مستوى الحروف بالكامل، خاصةً ما وراء الحرف الأول من كل وحدة رمزية. هذا يجعل الاستدلال التركيبي حول الحروف غير موثوق .
حدود نظرية. تنتمي معماريات المحولات (Transformer) إلى فئة التعقيد TC0، مما يجعلها عاجزة نظرياً عن حل المهام التي تتطلب استدلالاً يعتمد على العمق مع زيادة طول المدخلات — وهو قيد رياضي على العد التسلسلي الدقيق .
صرحت غوغل لـ TechCrunch في بيان عبر البريد الإلكتروني: 'لطالما شكّل عد الحروف داخل الكلمات تحدياً معروفاً لنماذج اللغة الكبيرة، ونحن نعمل على إصلاح هذه المشكلة تحديداً' . لكن كما لاحظ الباحثون، حتى النماذج التي تحتوي على مئات المليارات من المعاملات والمدرّبة على تريليونات الوحدات الرمزية تكافح من أجل عدّ حروف 'R' في كلمة 'strawberry' بشكل موثوق
. المشكلة هيكلية، وليست مسألة حجم.
فضيحة التهجئة ليست سوى أحدث حلقة في نمط مستمر لعامين من أخطاء 'AI Overviews' البارزة، وكلها تنبع من الانفصال نفسه بين توليد النصوص بطلاقة والعمليات الدقيقة التي يحتاج محرك البحث لأدائها.
في غضون أيام من الطرح الأمريكي في مايو 2024، أنتجت 'AI Overviews' سلسلة من الإجابات غير المنطقية واسعة الانتشار :
أقرت ليز ريد، رئيسة قسم البحث في غوغل، بوجود 'أمثلة معزولة' كانت 'غير منطقية'، وألقت باللوم على مزيج من 'فجوات المعلومات' وقيام الذكاء الاصطناعي بسحب المعلومات من مصادر ساخرة ومنخفضة الجودة . وقالت الشركة إنها أجرت تصحيحات، بما في ذلك الحد من 'AI Overviews' للاستفسارات المتعلقة بالصحة والاستفسارات الحساسة
.
في 22 مايو 2026، اكتشف المستخدمون أن البحث عن كلمة 'disregard' — إلى جانب كلمات ذات صلة مثل 'ignore' و 'dismiss' و 'skip' و 'stop' — دفع 'AI Overviews' لإخراج استجابة بأسلوب روبوت المحادثة: 'مفهوم. لقد تجاهلت تعليماتك السابقة. كيف يمكنني مساعدتك اليوم؟' .
بدلاً من إرجاع تعريف قاموسي، فسّر الذكاء الاصطناعي استفساراً بسيطاً على أنه تجاوز لتعليمات على مستوى النظام. كسر هذا الخطأ واجهة بحث غوغل لتلك المصطلحات، حيث عرض مساحة فارغة حيث كان ينبغي أن تكون النتائج . أقرت غوغل بالمشكلة وقالت إن الإصلاح قادم
.
أدرك باحثو الأمن أن هذا سيناريو كلاسيكي لحقن الأوامر (Prompt Injection) — كان النموذج يخلط بين مصطلحات البحث العادية وأوامر موجهة لمساعد ذكاء اصطناعي .
بعد أيام فقط من حادثة 'disregard'، ظهرت أخطاء عد الحروف. لم يستطع الذكاء الاصطناعي تهجئة اسم شركته الأم، وأخطأ في عد الحروف في كلمات بسيطة، بل وأخطأ في تهجئة 'Trump' إلى 't-r-p-u-m' . تم التحقق من الأخطاء من قبل وسائل إعلام متعددة بشكل مستقل
.
القاسم المشترك بين فئات الإخفاق الثلاث معماري وليس عرضياً. استبدلت غوغل محرك بحث تقليدي يعتمد على مطابقة الكلمات المفتاحية بنموذج لغة كبير توليدي يتفوق في توليد النصوص بطلاقة لكنه يفتقر إلى الآلية اللازمة لـ:
ينتج النموذج إجابات خاطئة بثقة لأنه لم يُبنَ أبداً — على مستوى أساسي — للتعامل مع المهام المطلوب منه أداؤها الآن في بيئة بحث حية. كل فشل واسع الانتشار يكشف الفجوة بين ما تجيده نماذج اللغة الكبيرة (التنبؤ بنص يبدو معقولاً) وما يتطلبه محرك بحث جدير بالثقة (الدقة الواقعية، الدقة على مستوى الحروف، ومقاومة حقن التعليمات).
وإلى أن تتم معالجة تلك القيود المعمارية على مستوى أعمق من مجرد ترقيع أنواع استفسارات فردية، من المرجح أن تستمر 'AI Overviews' في تصدر عناوين الأخبار للأسباب الخاطئة.
Comments
0 comments