Pro představu: patnáct webů z přibližně 1,1 miliardy existujících na internetu kontroluje více než dvě třetiny toho, co AI enginy doporučují miliardám uživatelů každý den . Tato koncentrace je daleko extrémnější než cokoliv, co Google PageRank vyprodukoval během své 25leté vlády nad webovým vyhledáváním
.
Tyto domény se pravidelně objevují na špičce žebříčků napříč ChatGPT, Google AI Mode, Gemini, Perplexity a AI Overviews:
Analýza Peec AI založená na 30 milionech zdrojů identifikovala jako deset nejcitovanějších domén napříč všemi platformami: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar a Healthline .
Diskuse a fóra na Redditu poskytují obrovský a různorodý soubor konverzačního obsahu a obsahu zaměřeného na řešení problémů. Ve studii Statista z června 2025 Reddit zachytil 40,1 % všech citovaných referencí, daleko před druhou Wikipedií s 26,3 % . Na Perplexity může Reddit tvořit zhruba jednu z pěti citací
.
Analytici poukazují na schopnost Redditu odpovídat na dlouhé, názorové a „jak-na-to“ dotazy, se kterými si tradiční encyklopedické zdroje neporadí – což je pro konverzační AI obzvláště cenné .
Přestože Reddit vede celkově, žebříčky jednotlivých enginů odhalují důležité rozdíly:
Pouhých 7 webů se objevuje v top 50 nejcitovanějších domén napříč všemi třemi hlavními enginy (ChatGPT, Perplexity, Google AI Overviews) a pouze 11 % domén je citováno jak ChatGPT, tak Perplexity .
Je důležité oddělit to, co LLM citují ve svých výstupech, od toho, na čem jsou trénovány. Pro trénovací data je dominantním zdrojem Common Crawl – otevřené úložiště petabajtů syrových webových dat, které pohání modely jako GPT-3, LLaMA a T5 . GPT-3 od OpenAI například čerpal 60 % svých trénovacích tokenů z filtrované verze Common Crawl
.
Výše uvedené seznamy citací odrážejí to, na co LLM odkazují při generování odpovědí – mnohem menší a kurátorovanější sadu zdrojů, které se model naučil považovat za autoritativní.
Pokud je vaším cílem být citován AI enginy, data jsou jasná: musíte si vydobýt místo v krátkém seznamu důvěryhodných domén. Dlouhý chvost webu je pro většinu AI výstupů mimo úzce specializované dotazy prakticky neviditelný.
Mezi strategie, které fungují, patří přispívání na Wikipedii, získání pokrytí na Forbes nebo Healthline, budování silné přítomnosti na YouTube a LinkedIn a získávání citací na Redditu. Formáty, které zvyšují šanci na citaci, zahrnují seznamy (listicles tvoří přibližně 50 % špičkových AI citací) a stránky s uspořádanými nebo neuspořádanými seznamy (přítomny na 80 % AI citovaných stránek) .
Stručně řečeno: Reddit, Wikipedia a YouTube jsou dnes třemi nejcitovanějšími doménami napříč hlavními LLM enginy, přičemž malý shluk autoritativních mediálních, zdravotnických a referenčních webů dotváří špičku. Chcete-li být citováni AI, musíte se nejprve dostat na tyto domény.
Comments
0 comments