Zum Vergleich: Von den rund 1,1 Milliarden Websites im Internet kontrollieren gerade einmal 15 mehr als zwei Drittel dessen, was KI-Engines täglich Milliarden von Nutzern empfehlen . Diese Konzentration ist weit extremer, als Googles PageRank es in 25 Jahren geschafft hat
.
Diese Domains tauchen in den Rankings von ChatGPT, Google AI Mode, Gemini, Perplexity und AI Overviews durchgängig ganz oben auf:
Peec AIs Analyse von 30 Millionen Quellen ergab engineübergreifend diese Top Ten: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar und Healthline .
Reddits nutzergenerierte Diskussionen und Foren liefern eine riesige, vielfältige Datenbasis mit Gesprächen und Problemlösungen. In einer Statista-Studie vom Juni 2025 vereinte Reddit 40,1 % aller zitierten Quellen – weit vor Wikipedia mit 26,3 % . Bei Perplexity stammt etwa jedes fünfte Zitat von Reddit
.
Analysten führen das darauf zurück, dass Reddit besonders gut Nischenfragen, meinungsbasierte und „How-to“-Inhalte beantworten kann – also genau das, was für conversational KI besonders wertvoll ist .
Zwar führt Reddit insgesamt, doch die Rangfolgen der einzelnen Engines zeigen wichtige Unterschiede:
Nur 7 Websites tauchen engineübergreifend in den Top 50 der meistzitierten Domains auf (ChatGPT, Perplexity, Google AI Overviews). Und nur 11 % der Domains werden sowohl von ChatGPT als auch von Perplexity zitiert .
Wichtig ist die Unterscheidung zwischen dem, was LLMs in ihren Antworten zitieren, und dem, womit sie trainiert wurden. Bei den Trainingsdaten ist die mit Abstand wichtigste Quelle Common Crawl – ein offenes Repository mit Petabytes an Rohdaten, das Modelle wie GPT-3, LLaMA und T5 füttert . OpenAI's GPT-3 bezog 60 % seiner Trainings-Tokens aus einer gefilterten Version von Common Crawl
.
Die Zitierlisten oben zeigen, worauf LLMs bei der Antwortgenerierung zurückgreifen – eine viel kleinere, strenger kuratierte Menge an Quellen, die das Modell als autoritativ gelernt hat.
Wer von KI-Engines zitiert werden will, muss sich in dieser exklusiven Liste einen Platz verdienen. Der Long Tail des Webs ist für die meisten KI-Antworten praktisch unsichtbar – von Nischenanfragen abgesehen.
Erfolgsstrategien sind: in Wikipedia Beiträge leisten, in Forbes oder Healthline Erwähnungen erhalten, eine starke Präsenz auf YouTube und LinkedIn aufbauen und Zitate auf Reddit generieren. Auch das Format zählt: Listenartikel machen rund 50 % der KI-Spitzenezitate aus, und geordnete oder ungeordnete Listen finden sich auf 80 % der KI-zitierten Seiten .
Kurz gesagt: Reddit, Wikipedia und YouTube sind heute die drei meistzitierten Domains der grossen LLM-Engines – umgeben von einem kleinen Kreis autoritativer Medien-, Gesundheits- und Nachschlageportale. Wer von KI zitiert werden will, muss zuerst von diesen Domains zitiert werden.
Comments
0 comments