["Google"]["Go", "ogle"]["G", "o", "o", "g", "l", "e"]هذا يخلق مشكلتين متراكبتين:
أولاً، لا تقوم طبقة التضمين (Embedding Layer) بتشفير معلومات على مستوى الحرف بشكل كامل. تظهر الأبحاث أن طبقات التضمين في نماذج اللغة الكبيرة تخزن معلومات حرفية قوية فقط للحرف الأول من كل رمز؛ وبعد ذلك، تتدهور التفاصيل على مستوى الحرف بسرعة . عندما يحتاج النموذج إلى عدّ الحروف داخل رمز ما، يجب عليه إعادة بناء تسلسل الحروف من تمثيل لم يُصمم أصلاً للحفاظ عليه. تعوض طبقات المحول (Transformer) اللاحقة عن ذلك جزئياً – فقد لاحظ الباحثون نقطة "اختراق" مميزة حيث يتمكن النموذج من تهجئة الرمز بشكل صحيح – لكن العملية تبقى غير موثوقة وهشة
.
ثانياً، أدوات التجزئة دون-الكلمة "غافلة إلى حد كبير عن البنية الداخلية للرموز". صاغت دراسة من أركايف (Arxiv) في 2024 مصطلح "لعنة التجزئة الرمزية" لوصف نقطة الضعف هذه: أدوات التجزئة حساسة بطبيعتها للأخطاء المطبعية، وتغيرات الطول، وعمياء عن التكوين الداخلي للرموز نفسها . كلمة مثل "journalism" قد تكون رمزاً واحداً – لم يتعلم النموذج أبداً تفكيكها إلى
j-o-u-r-n-a-l-i-s-m على مستوى الحرف، لذا عندما يُطلب منه تهجئتها، فهو يخمّن.
النتيجة هي ما رآه المستخدمون مع "AI Overviews" من غوغل: ذكاء اصطناعي يمكنه مناقشة الفلسفة وكتابة الأكواد بثقة، يصرّ على أن هناك حرفي 'p' في "Google" وأن "poop" تحتوي على حرف 'r' واحد بالضبط .
إذا كانت المشكلة هي التجزئة الرمزية، فإن الحل البديهي هو استخدام نماذج على مستوى الحرف أو مستوى البايت. أن يدع النموذج يرى كل حرف. هذا النهج موجود – نماذج مثل ByT5 تعمل مباشرة على البايتات الخام – لكنه لم يُعتمد على نطاق واسع لأنه يجعل النماذج أكثر كلفة بكثير من حيث التشغيل .
الانتقال إلى معالجة نقية على مستوى الحرف يضاعف أطوال التسلسل بما يقدر بـ 3 إلى 5 مرات، مما يزيد من تكاليف الحوسبة بشكل متناسب ويجعل من الصعب جداً على النموذج تعلم العلاقات طويلة المدى والعلاقات الدلالية . أدوات التجزئة دون-الكلمة هي التسوية التي تقوم على الكفاءة والتي جعلت نماذج اللغة الكبيرة الحديثة عملية: إنها تضغط النص إلى أحجام مفردات يمكن التحكم بها مع الحفاظ على المعنى الكافي لتوليد لغة طليقة.
يتفق الباحثون على نطاق واسع على أنه من المحتمل ألا يكون هناك أداة تجزئة "مثالية" . أدوات التجزئة "تنتج بشكل روتيني ترميزات غير فريدة" وتخلق "عدم تطابق تمثيلي" هو بنيوي بعمق – وليس خطأ برمجياً بسيطاً يمكن إصلاحه
. تبدو المقايضة بين الدقة على مستوى الحرف والطلاقة الدلالية أساسية في بنية المحولات.
تكشف إخفاقات التهجئة عن عدة قيود بنيوية تمتد إلى ما هو أبعد من "AI Overviews" من غوغل.
نماذج اللغة الكبيرة هي أدوات مطابقة أنماط، وليست متلاعبة بالرموز. عدّ الحروف هو مهمة خوارزمية تافهة لأي حاسوب يشغل كوداً تقليدياً، لكن نماذج اللغة الكبيرة لا تنفذ خوارزميات – إنها تتنبأ بالرمز التالي الأكثر احتمالاً بناءً على أنماط إحصائية في بيانات تدريبها . عندما يُسأل النموذج عن عدد الحروف، فهو يولد إجابة تبدو محتملة من ارتباطات متعلمة، وليس عملية عدّ حقيقية.
الثقة لا علاقة لها بالصحة. أجاب الذكاء الاصطناعي بـ"اثنان" بطلاقة نحوية مثالية ومع ذلك كان مخطئاً بشكل موضوعي. هذه سمة مميزة لـ"هلوسة" نماذج اللغة الكبيرة: مخرجات واثقة ومعقولة دون آلية تحقق مدمجة. اعترفت غوغل نفسها في 2024 أنه على الرغم من أن "AI Overviews مصممة لعرض المعلومات المدعومة بأفضل نتائج الويب فقط"، إلا أنها لا تزال قادرة على إساءة تفسير الاستفسارات أو الفروق الدقيقة في اللغة .
النقطة العمياء معمارية، وليست عرضية. كل نموذج لغة كبير رئيسي يستخدم التجزئة دون-الكلمة – بما في ذلك نماذج من أوبن إيه آي (OpenAI) وأنثروبيك (Anthropic) وميتا (Meta) – يُظهر نقاط ضعف مماثلة في المهام على مستوى الحرف مثل تهجئة الكلمات بشكل عكسي، وعدّ الحروف، أو التعامل مع الجناس الناقصة . يساعد توسيع النماذج وجعلها أكبر قليلاً، لكن الانحياز يبقى مستمراً
.
قد تبدو هذه الإخفاقات محرجة – ذكاء اصطناعي لا يستطيع تهجئة اسم شركته الخاصة – لكن الصناعة لا تعتبرها أزمة، لأن القيمة الهائلة لنماذج اللغة الكبيرة تكمن في مكان آخر.
توليد النصوص بطلاقة، التلخيص، الاستدلال، الترجمة، توليد الأكواد – كل هذه القدرات تأتي من قدرة النموذج على العمل على المستوى الدلالي، حيث يكون التجريد على مستوى الرمز ميزة وليس عيباً . الدقة على مستوى الحرف ببساطة ليست ما صُممت هذه البنى لتحسينه.
الحل العملي هو توجيه استفسارات التهجئة والعد إلى برمجيات تقليدية قائمة على القواعد بدلاً من مطالبة نموذج اللغة الكبير بالتعامل معها. تحاول العديد من تطبيقات "AI Overviews" بالفعل اكتشاف مثل هذه الاستفسارات وتحويلها، على الرغم من أن الأخطاء البارزة في مايو 2026 تُظهر أن الاكتشاف نفسه لا يزال غير كامل . وجدت دراسة منفصلة أن "AI Overviews" من غوغل تجيب على استفسارات عكس التهجئة بشكل خاطئ بنسبة 52% من الوقت – وتم عكس 10% فقط من الكلمات التي تتكون من ثلاثة مقاطع لفظية أو أكثر بشكل صحيح
.
تعمل غوغل على إصلاحات لمشاكل العدّ المحددة التي تم نشرها . لكن بالنسبة لأي شخص يفهم مقايضة التجزئة الرمزية، فإن الدرس الحقيقي ليس أن غوغل أصدرت منتجاً معيباً. بل إن البنية التي تدعم ثورة الذكاء الاصطناعي لديها نقطة عمياء أساسية – ولم يجد أحد طريقة لإصلاحها دون التضحية بما يجعل نماذج اللغة الكبيرة قيّمة في المقام الأول.
Comments
0 comments