Para ponerlo en perspectiva: 15 sitios web, de aproximadamente 1.100 millones que existen en internet, controlan más de dos tercios de lo que los motores de IA recomiendan cada día a miles de millones de usuarios . Esta concentración es mucho más extrema que cualquier cosa que el algoritmo PageRank de Google produjera durante sus 25 años de reinado en el descubrimiento web
.
Estos dominios aparecen consistentemente en los primeros puestos de los rankings de citas en ChatGPT, Google AI Mode, Gemini, Perplexity y AI Overviews:
El análisis de Peec AI sobre 30 millones de fuentes situó a los 10 dominios más citados en todas las plataformas como: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar y Healthline .
Los debates y foros generados por los usuarios de Reddit proporcionan un conjunto de datos vasto y diverso de contenido conversacional y de resolución de problemas. En un estudio de Statista de junio de 2025, Reddit capturó el 40.1% de todas las referencias citadas, muy por delante de la segunda clasificada, Wikipedia, con un 26.3% . En Perplexity, Reddit puede llegar a representar aproximadamente 1 de cada 5 citas
.
Los analistas señalan que la capacidad de Reddit para responder a preguntas de nicho, basadas en opiniones y del tipo "cómo se hace", con las que las fuentes enciclopédicas tradicionales tienen dificultades, lo hace especialmente valioso para la IA conversacional .
Aunque Reddit lidera en general, los rankings por motor revelan diferencias importantes:
Solo 7 sitios web aparecen entre los 50 dominios más citados en los tres motores principales (ChatGPT, Perplexity y Google AI Overviews), y solo el 11% de los dominios son citados tanto por ChatGPT como por Perplexity .
Es importante separar lo que los modelos de lenguaje citan en sus respuestas de aquello con lo que fueron entrenados. Para los datos de entrenamiento, la fuente dominante en volumen es Common Crawl, un repositorio abierto de petabytes de datos web en bruto que alimenta modelos como GPT-3, LLaMA y T5 . El GPT-3 de OpenAI, por ejemplo, obtuvo el 60% de sus tokens de entrenamiento de una versión filtrada de Common Crawl
.
Las listas de citas anteriores reflejan lo que los modelos refieren al generar respuestas: un conjunto de fuentes mucho más pequeño y seleccionado que el modelo ha aprendido a tratar como autoritativo.
Si tu objetivo es ser citado por los motores de IA, los datos son claros: necesitas ganarte un lugar en la reducida lista de dominios de confianza. La larga cola de la web es funcionalmente invisible para la mayoría de las respuestas de la IA, excepto en consultas muy específicas.
Las estrategias que funcionan incluyen contribuir a Wikipedia, conseguir cobertura en Forbes o Healthline, construir una presencia sólida en YouTube y LinkedIn, y ganar citas en Reddit. Los formatos que aumentan el éxito de las citas son los artículos en formato lista (que representan aproximadamente el 50% de las principales citas de IA) y las páginas con listas ordenadas o desordenadas (presentes en el 80% de las páginas citadas por la IA) .
En resumen: Reddit, Wikipedia y YouTube son los tres dominios más citados en los principales modelos de lenguaje hoy en día, con un pequeño grupo de sitios autorizados de medios, salud y referencia que completan el nivel superior. Conseguir que la IA te cite significa, primero, ser citado por estos dominios.
Comments
0 comments