Para colocar isso em perspectiva: 15 sites, de aproximadamente 1,1 bilhão na internet, controlam mais de dois terços do que os mecanismos de IA recomendam para bilhões de usuários todos os dias . Essa concentração é muito mais extrema do que qualquer coisa que o algoritmo PageRank do Google produziu durante seus 25 anos de reinado sobre a descoberta na web
.
Estes domínios aparecem consistentemente no topo dos rankings de citação em ChatGPT, Google AI Mode, Gemini, Perplexity e AI Overviews:
A análise da Peec AI com 30 milhões de fontes identificou os 10 domínios mais citados em todas as plataformas como: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar e Healthline .
As discussões e fóruns gerados por usuários no Reddit fornecem um conjunto de dados vasto e diversificado de conteúdo conversacional e de resolução de problemas. Em um estudo da Statista de junho de 2025, o Reddit capturou 40,1% de todas as referências citadas, muito à frente da Wikipedia em segundo lugar, com 26,3% . No Perplexity, o Reddit pode representar cerca de 1 em cada 5 citações
.
Analistas apontam para a capacidade do Reddit de responder a perguntas de cauda longa, baseadas em opinião e tutoriais, algo com que fontes enciclopédicas tradicionais têm dificuldade — tornando-o especialmente valioso para IAs conversacionais .
Embora o Reddit lidere no geral, os rankings individuais dos mecanismos revelam diferenças importantes:
Apenas 7 sites aparecem entre os 50 domínios mais citados em todos os três principais mecanismos (ChatGPT, Perplexity, Google AI Overviews), e apenas 11% dos domínios são citados tanto pelo ChatGPT quanto pelo Perplexity .
É importante separar o que os LLMs citam em suas respostas daquilo em que são treinados. Para dados de treinamento, a fonte dominante em volume é o Common Crawl — um repositório aberto de petabytes de dados brutos da web que alimenta modelos como GPT-3, LLaMA e T5 . O GPT-3 da OpenAI, por exemplo, extraiu 60% de seus tokens de treinamento de uma versão filtrada do Common Crawl
.
As listas de citações acima refletem o que os LLMs referenciam ao gerar respostas — um conjunto de fontes muito menor e mais curado que o modelo aprendeu a tratar como autoritativo.
Se o seu objetivo é ser citado por mecanismos de IA, os dados são claros: você precisa ganhar um lugar na curta lista de domínios de confiança. A cauda longa da web é funcionalmente invisível para a maioria das respostas de IA, exceto em consultas de nicho.
Estratégias que funcionam incluem contribuir para a Wikipedia, obter cobertura no Forbes ou Healthline, construir uma forte presença no YouTube e LinkedIn, e ganhar citações no Reddit. Formatos que impulsionam o sucesso de citação incluem listas (que representam aproximadamente 50% das principais citações de IA) e páginas com listas ordenadas ou não ordenadas (presentes em 80% das páginas citadas por IA) .
Em resumo: Reddit, Wikipedia e YouTube são os três domínios mais citados nos principais mecanismos de LLM atualmente, com um pequeno grupo de sites autoritativos de mídia, saúde e referência completando o topo da lista. Ser citado por IA significa ser citado por estes domínios primeiro.
Comments
0 comments