Щоб зрозуміти масштаб: 15 вебсайтів із приблизно 1,1 мільярда в інтернеті контролюють понад дві третини того, що ШІ-двигуни рекомендують мільярдам користувачів щодня . Ця концентрація є набагато більш екстремальною, ніж усе, що коли-небудь створював алгоритм PageRank компанії Google за 25 років свого панування
.
Ці домени постійно з'являються на вершині рейтингів цитувань у ChatGPT, Google AI Mode, Gemini, Perplexity та AI Overviews:
Аналіз Peec AI на основі 30 мільйонів джерел виявив, що 10 найбільш цитованих доменів на всіх платформах: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar та Healthline .
Обговорення та форуми, створені користувачами Reddit, надають величезний, різноманітний набір даних для розмовного та проблемно-орієнтованого контенту. В одному дослідженні Statista від червня 2025 року Reddit зібрав 40,1% усіх процитованих посилань, значно випередивши Wikipedia з 26,3% . На Perplexity на Reddit може припадати приблизно 1 з 5 цитувань
.
Аналітики вказують на здатність Reddit відповідати на довгі, засновані на думках запитання та запитання типу «як зробити», з якими традиційні енциклопедичні джерела важко справляються, що робить його особливо цінним для розмовного ШІ .
Хоча Reddit лідирує загалом, рейтинги окремих двигунів виявляють важливі відмінності:
Лише 7 вебсайтів з'являються в топ-50 найбільш цитованих доменів усіх трьох основних двигунів (ChatGPT, Perplexity, Google AI Overviews), і лише 11% доменів цитуються одночасно ChatGPT та Perplexity .
Важливо розділяти те, на що LLM посилаються у своїх виходах, від того, на чому вони навчаються. Для даних навчання домінуючим джерелом за обсягом є Common Crawl — відкритий репозиторій петабайтів необроблених вебданих, який живить моделі GPT-3, LLaMA та T5 . Наприклад, GPT-3 від OpenAI отримав 60% своїх навчальних токенів із відфільтрованої версії Common Crawl
.
Списки цитувань вище відображають те, на що LLM посилаються під час генерації відповідей — набагато менший, більш ретельно відібраний набір джерел, які модель навчилася вважати авторитетними.
Якщо ваша мета — бути процитованим ШІ-двигунами, дані однозначні: вам потрібно завоювати місце в короткому списку довірених доменів. Довгий хвіст вебу є функціонально невидимим для більшості виходів ШІ, окрім нішевих запитів.
Стратегії, які працюють, включають внесок у Wikipedia, отримання згадок на Forbes або Healthline, створення сильної присутності на YouTube та LinkedIn, а також заробляння цитувань на Reddit. Формати, які підвищують успіх цитування, включають списки (listicles), які становлять приблизно 50% найкращих цитувань ШІ, та сторінки з упорядкованими або невпорядкованими списками (присутні на 80% сторінок, процитованих ШІ) .
Коротко кажучи: Reddit, Wikipedia та YouTube — це три найбільш цитовані домени в основних LLM сьогодні, а невелика група авторитетних медіа, медичних та довідкових сайтів завершує верхній ешелон. Щоб вас цитував ШІ, спочатку потрібно, щоб вас цитували ці домени.
Comments
0 comments