Для сравнения: 15 сайтов из примерно 1,1 миллиарда в интернете контролируют более двух третей того, что ИИ-движки ежедневно рекомендуют миллиардам пользователей . Эта концентрация гораздо выше, чем всё, чего достиг алгоритм PageRank за 25 лет своего правления
.
Эти домены стабильно входят в верхние строчки рейтингов цитирования в ChatGPT, Google AI Mode, Gemini, Perplexity и AI Overviews:
Анализ Peec AI на основе 30 миллионов источников показал, что топ-10 самых цитируемых доменов по всем платформам: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar и Healthline .
Сгенерированный пользователями контент Reddit — обсуждения и форумы — предоставляет огромный и разнообразный массив разговорных данных и решений проблем. В одном исследовании Statista за июнь 2025 года на Reddit пришлось 40,1% всех цитируемых ссылок, далеко обогнав Wikipedia с 26,3% . На Perplexity Reddit может составлять примерно каждую пятую ссылку
.
Аналитики отмечают способность Reddit отвечать на узкоспециализированные, основанные на мнениях и практические вопросы, с которыми традиционные энциклопедические источники справляются хуже — это делает его особенно ценным для разговорного ИИ .
Хотя Reddit лидирует в целом, рейтинги отдельных движков выявляют важные различия:
Только 7 веб-сайтов появляются в топ-50 самых цитируемых доменов сразу во всех трёх основных движках (ChatGPT, Perplexity, Google AI Overviews), и только 11% доменов цитируются и ChatGPT, и Perplexity .
Важно разделять то, что LLM цитируют в своих ответах, и то, на чём они обучались. Для обучения данных доминирующим источником по объёму является Common Crawl — открытый репозиторий петабайтов «сырых» веб-данных, который питает такие модели, как GPT-3, LLaMA и T5 . GPT-3 от OpenAI, например, получил 60% своих обучающих токенов из отфильтрованной версии Common Crawl
.
Приведённые выше списки цитирования отражают то, на что LLM ссылаются при генерации ответов — гораздо меньший, более тщательно отобранный набор источников, которые модель научилась считать авторитетными.
Если ваша цель — быть процитированным ИИ-движками, данные ясны: вам нужно заслужить место в коротком списке доверенных доменов. Длинный хвост сети практически невидим для большинства выходных данных ИИ, за исключением нишевых запросов.
Стратегии, которые работают: внесение вклада в Wikipedia, получение упоминаний на Forbes или Healthline, создание сильного присутствия на YouTube и LinkedIn, а также завоевание цитирований на Reddit. Форматы, повышающие успех цитирования: списки (лisticles) составляют примерно 50% лучших AI-цитирований, а страницы с упорядоченными или неупорядоченными списками присутствуют на 80% AI-цитируемых страниц .
Коротко: Reddit, Wikipedia и YouTube — три самых цитируемых домена в основных LLM-движках сегодня. Небольшая группа авторитетных медиа, медицинских и справочных сайтов замыкает верхний эшелон. Чтобы ИИ ссылался на вас, сначала нужно, чтобы на вас ссылались эти домены.
Comments
0 comments