Om dat in perspectief te plaatsen: 15 websites, van de ruwweg 1,1 miljard op het internet, controleren meer dan tweederde van wat AI-engines dagelijks aan miljarden gebruikers aanbevelen . Deze concentratie is veel extremer dan wat Google's PageRank-algoritme ooit produceerde in zijn 25-jarige heerschappij over webontdekking
.
Deze domeinen staan consequent bovenaan de citatieranglijsten in ChatGPT, Google AI Mode, Gemini, Perplexity en AI Overviews:
Peec AI's analyse van 30 miljoen bronnen wees de top 10 meest geciteerde domeinen over alle platforms aan: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar en Healthline .
De door gebruikers gegenereerde discussies en forums van Reddit vormen een enorme, diverse dataset van conversationele en probleemoplossende inhoud. In een Statista-onderzoek van juni 2025 had Reddit 40,1% van alle geciteerde verwijzingen, ver voor op nummer twee Wikipedia met 26,3% . Op Perplexity is Reddit goed voor ongeveer 1 op de 5 citaties
.
Analisten wijzen op het vermogen van Reddit om antwoorden te geven op 'long-tail'-vragen, op meningen gebaseerde vragen en 'hoe'-vragen, waar traditionele encyclopedische bronnen moeite mee hebben — waardoor het bijzonder waardevol is voor conversationele AI .
Hoewel Reddit over de hele linie leidt, onthullen de ranglijsten per engine belangrijke verschillen:
Slechts 7 websites verschijnen in de top 50 van meest geciteerde domeinen in alle drie de grote engines (ChatGPT, Perplexity, Google AI Overviews), en slechts 11% van de domeinen wordt door zowel ChatGPT als Perplexity geciteerd .
Het is belangrijk om onderscheid te maken tussen wat LLM's in hun output citeren en waar ze op zijn getraind. Voor trainingsdata is de dominante bron qua volume Common Crawl — een open repository van petabytes aan ruwe webdata die modellen als GPT-3, LLaMA en T5 voedt . OpenAI's GPT-3 haalde bijvoorbeeld 60% van zijn trainingstokens uit een gefilterde versie van Common Crawl
.
De bovenstaande citatielijsten weerspiegelen wat LLM's raadplegen bij het genereren van antwoorden — een veel kleinere, meer samengestelde set bronnen die het model als gezaghebbend heeft leren beschouwen.
Als je doel is om door AI-engines geciteerd te worden, is de boodschap duidelijk: je moet een plekje veroveren op de korte lijst van vertrouwde domeinen. De 'long tail' van het web is voor de meeste AI-outputs functioneel onzichtbaar, behalve bij nichevragen.
Strategieën die werken zijn onder meer bijdragen aan Wikipedia, vermeldingen krijgen op Forbes of Healthline, een sterke aanwezigheid opbouwen op YouTube en LinkedIn, en citaties verdienen op Reddit. Formats die citatiesucces vergroten zijn onder meer lijstjes (die ongeveer 50% van de top AI-citaties uitmaken) en pagina's met geordende of ongeordende lijsten (aanwezig op 80% van de door AI geciteerde pagina's) .
Kortom: Reddit, Wikipedia en YouTube zijn vandaag de dag de drie meest geciteerde domeinen in de grote LLM-engines, met een klein cluster van gezaghebbende media-, gezondheids- en naslagwebsites dat de top aanvult. Geciteerd worden door AI betekent eerst geciteerd worden door deze domeinen.
Comments
0 comments