Aby to zobrazować: 15 stron, z około 1,1 miliarda istniejących w internecie, kontroluje ponad dwie trzecie tego, co silniki AI rekomendują miliardom użytkowników każdego dnia . Ta koncentracja jest znacznie bardziej ekstremalna niż wszystko, co algorytm PageRank Google'a wyprodukował podczas swojego 25-letniego panowania nad odkrywaniem sieci
.
Te domeny konsekwentnie pojawiają się na szczycie rankingów cytowań w ChatGPT, Google AI Mode, Gemini, Perplexity i AI Overviews:
Analiza Peec AI oparta na 30 milionach źródeł wskazała 10 najczęściej cytowanych domen we wszystkich platformach: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar i Healthline .
Treści generowane przez użytkowników na Reddicie – dyskusje i fora – stanowią ogromny, zróżnicowany zbiór danych konwersacyjnych i rozwiązywania problemów. W badaniu Statista z czerwca 2025 r. Reddit przechwycił 40,1% wszystkich cytowanych referencji, daleko wyprzedzając drugą Wikipedię z 26,3% . W Perplexity Reddit może odpowiadać za około 1 na 5 cytowań
.
Analitycy wskazują na zdolność Reddita do odpowiadania na pytania dotyczące niszowych tematów, opinii i poradników, z którymi tradycyjne źródła encyklopedyczne mają trudności – co czyni go szczególnie cennym dla konwersacyjnej AI .
Chociaż Reddit prowadzi ogólnie, rankingi poszczególnych silników ujawniają ważne różnice:
Tylko 7 stron internetowych pojawia się w 50 najczęściej cytowanych domenach we wszystkich trzech głównych silnikach (ChatGPT, Perplexity, Google AI Overviews), a tylko 11% domen jest cytowanych zarówno przez ChatGPT, jak i Perplexity .
Ważne jest, aby oddzielić to, co LLM cytują w swoich wynikach, od tego, na czym są trenowane. Jeśli chodzi o dane treningowe, dominującym źródłem pod względem wolumenu jest Common Crawl – otwarte repozytorium petabajtów surowych danych internetowych, które zasila modele takie jak GPT-3, LLaMA i T5 . GPT-3 od OpenAI czerpał na przykład 60% swoich tokenów treningowych z przefiltrowanej wersji Common Crawl
.
Powyższe listy cytowań odzwierciedlają to, do czego LLM odnoszą się podczas generowania odpowiedzi – znacznie mniejszy, bardziej starannie dobrany zestaw źródeł, które model nauczył się traktować jako autorytatywne.
Jeśli Twoim celem jest bycie cytowanym przez silniki AI, dane są jednoznaczne: musisz zdobyć miejsce na krótkiej liście zaufanych domen. Długa ogona sieci jest funkcjonalnie niewidoczna dla większości wyników AI poza niszowymi zapytaniami.
Skuteczne strategie obejmują: tworzenie treści w Wikipedii, zdobywanie wzmianek w Forbes lub Healthline, budowanie silnej obecności na YouTube i LinkedIn oraz zdobywanie cytowań na Reddicie. Formaty treści, które zwiększają szanse na cytowanie, to listy (stanowią około 50% cytowań AI) oraz strony z uporządkowanymi lub nieuporządkowanymi listami (obecne na 80% stron cytowanych przez AI) .
Krótko mówiąc: Reddit, Wikipedia i YouTube to trzy najczęściej cytowane domeny w głównych silnikach LLM, a niewielka grupa autorytatywnych mediów, serwisów zdrowotnych i referencyjnych uzupełnia czołówkę. Aby być cytowanym przez AI, najpierw musisz być cytowanym przez te domeny.
Comments
0 comments