لنضع هذا في سياقه: 15 موقعاً، من بين حوالي 1.1 مليار موقع على الإنترنت، تتحكم في أكثر من ثلثي ما توصي به محركات الذكاء الاصطناعي لمليارات المستخدمين يومياً . هذا التركيز أكثر حدة بكثير من أي شيء أنتجه خوارزم بيج رانك من جوجل خلال 25 عاماً من هيمنته على اكتشاف الويب
.
تظهر هذه المواقع باستمرار في قمة ترتيبات الاستشهاد عبر شات جي بي تي، وجوجل أي مود، وجيميناي، وبيربليكسيتي، وملخصات الذكاء الاصطناعي:
وجد تحليل Peec AI لـ 30 مليون مصدر أن أفضل 10 مواقع استشهاداً عبر جميع المنصات هي: ريديت، يوتيوب، لينكدإن، ويكيبيديا، فوربس، فيسبوك، يلب، أمازون، تيك رادار، وهيلث لاين .
توفر المناقشات والمنتديات التي ينشئها المستخدمون على ريديت مجموعة بيانات ضخمة ومتنوعة من المحتوى التحادثي وحل المشكلات. في إحدى دراسات Statista من يونيو 2025، استحوذ ريديت على 40.1% من جميع المراجع المُستشهَد بها، متقدماً بفارق كبير على ويكيبيديا التي حلت ثانية بنسبة 26.3% . على منصة بيربليكسيتي، يمكن أن يمثل ريديت حوالي 1 من كل 5 استشهادات
.
يشير المحللون إلى قدرة ريديت على الإجابة عن الأسئلة الطويلة والمتخصصة والقائمة على الرأي وأسئلة "كيف أفعل"، والتي تكافح المصادر الموسوعية التقليدية للتعامل معها — مما يجعلها ذات قيمة خاصة للذكاء الاصطناعي التحادثي .
بينما يتصدر ريديت القائمة بشكل عام، تكشف ترتيبات المحركات الفردية عن اختلافات مهمة:
فقط 7 مواقع إلكترونية تظهر ضمن أفضل 50 موقعاً استشهاداً عبر المحركات الثلاثة الرئيسية (شات جي بي تي، بيربليكسيتي، ملخصات جوجل للذكاء الاصطناعي)، و 11% فقط من النطاقات يتم الاستشهاد بها من قبل كل من شات جي بي تي وبيربليكسيتي .
من المهم الفصل بين ما تستشهد به نماذج اللغة الكبيرة في مخرجاتها وما يتم تدريبها عليه. بالنسبة لبيانات التدريب، المصدر المهيمن من حيث الحجم هو Common Crawl — وهو مستودع مفتوح للبيانات الخام من الويب بحجم بيتابايت يغذي نماذج مثل GPT-3 وLLaMA وT5 . على سبيل المثال، استخلص GPT-3 من OpenAI 60% من رموز التدريب الخاصة به من نسخة مصفاة من Common Crawl
.
قوائم الاستشهاد أعلاه تعكس ما تشير إليه نماذج اللغة الكبيرة عند إنشاء الردود — وهي مجموعة أصغر بكثير وأكثر تنظيماً من المصادر التي تعلم النموذج اعتبارها موثوقة.
إذا كان هدفك هو أن يتم الاستشهاد بك من قبل محركات الذكاء الاصطناعي، فالبيانات واضحة: تحتاج إلى كسب مكان في القائمة القصيرة للنطاقات الموثوقة. أما ذيل الإنترنت الطويل فهو غير مرئي عملياً لمعظم مخرجات الذكاء الاصطناعي خارج الاستفسارات المتخصصة.
الاستراتيجيات التي تنجح تشمل المساهمة في ويكيبيديا، والحصول على تغطية في فوربس أو هيلث لاين، وبناء حضور قوي على يوتيوب ولينكدإن، وكسب استشهادات على ريديت. الصيغ التي تعزز نجاح الاستشهاد هي القوائم (listicles) التي تشكل حوالي 50% من أفضل استشهادات الذكاء الاصطناعي، والصفحات التي تحتوي على قوائم مرتبة أو غير مرتبة (والموجودة في 80% من الصفحات المُستشهَد بها من قبل الذكاء الاصطناعي) .
باختصار: ريديت، ويكيبيديا، ويوتيوب هي النطاقات الثلاثة الأكثر استشهاداً في محركات نماذج اللغة الكبيرة الرئيسية اليوم، مع مجموعة صغيرة من المواقع الإعلامية والصحية والمرجعية الموثوقة التي تكمل هذه الدرجة الأولى. الحصول على استشهاد من الذكاء الاصطناعي يعني أولاً الحصول على استشهاد من هذه النطاقات.
Comments
0 comments