Pour mettre cela en perspective : 15 sites web, sur environ 1,1 milliard que compte Internet, contrôlent plus des deux tiers de ce que les moteurs d'IA recommandent chaque jour à des milliards d'utilisateurs . Cette concentration est bien plus extrême que tout ce que l'algorithme PageRank de Google a produit durant ses 25 ans de règne sur la découverte web
.
Ces domaines apparaissent systématiquement en tête des classements de citations, que ce soit sur ChatGPT, Google AI Mode, Gemini, Perplexity ou AI Overviews :
L'analyse de Peec AI portant sur 30 millions de sources a identifié les 10 domaines les plus cités toutes plateformes confondues : Reddit, YouTube, LinkedIn, Wikipédia, Forbes, Facebook, Yelp, Amazon, TechRadar et Healthline .
Les discussions et forums générés par les utilisateurs de Reddit constituent un ensemble de données vaste et diversifié de contenu conversationnel et de résolution de problèmes. Dans une étude Statista de juin 2025, Reddit captait 40,1 % de toutes les références citées, loin devant Wikipédia, deuxième avec 26,3 % . Sur Perplexity, Reddit peut représenter environ une citation sur cinq
.
Les analystes soulignent la capacité de Reddit à répondre aux questions de niche, d'opinion et de type "comment faire", là où les sources encyclopédiques traditionnelles peinent — ce qui le rend particulièrement précieux pour les IA conversationnelles .
Bien que Reddit soit en tête du classement général, les classements par moteur révèlent des différences importantes :
Seulement 7 sites web apparaissent dans le top 50 des domaines les plus cités par les trois grands moteurs (ChatGPT, Perplexity, Google AI Overviews), et seuls 11 % des domaines sont cités à la fois par ChatGPT et Perplexity .
Il est important de distinguer ce que les LLM citent dans leurs réponses de ce sur quoi ils sont entraînés. Pour les données d'entraînement, la source dominante en volume est Common Crawl — un référentiel ouvert de pétaoctets de données web brutes qui alimente des modèles comme GPT-3, LLaMA et T5 . GPT-3 d'OpenAI, par exemple, tirait 60 % de ses tokens d'entraînement d'une version filtrée de Common Crawl
.
Les listes de citations ci-dessus reflètent ce que les LLM référencent lorsqu'ils génèrent des réponses — un ensemble de sources beaucoup plus restreint et plus sélectionné, que le modèle a appris à considérer comme faisant autorité.
Si votre objectif est d'être cité par les moteurs d'IA, les données sont claires : vous devez gagner votre place dans la liste restreinte des domaines de confiance. La longue traîne du web est fonctionnellement invisible pour la plupart des sorties d'IA, sauf pour les requêtes très spécialisées.
Parmi les stratégies qui fonctionnent : contribuer à Wikipédia, obtenir une couverture sur Forbes ou Healthline, développer une présence solide sur YouTube et LinkedIn, et gagner des citations sur Reddit. Les formats qui favorisent le succès des citations incluent les listes (qui représentent environ 50 % des meilleures citations IA) et les pages contenant des listes ordonnées ou non (présentes sur 80 % des pages citées par l'IA) .
En résumé : Reddit, Wikipédia et YouTube sont les trois domaines les plus cités par les grands moteurs de LLM aujourd'hui, un petit groupe de médias de référence, de sites santé et de sites encyclopédiques complétant le premier cercle. Être cité par l'IA, c'est d'abord être cité par ces domaines.
Comments
0 comments