Per darti un'idea: 15 siti web, su circa 1,1 miliardi presenti su internet, controllano più di due terzi di ciò che i motori AI raccomandano ogni giorno a miliardi di utenti . Questa concentrazione è molto più estrema di qualsiasi cosa l'algoritmo PageRank di Google abbia mai prodotto durante i suoi 25 anni di dominio nella scoperta web
.
Questi domini compaiono costantemente in cima alle classifiche di citazione su ChatGPT, Google AI Mode, Gemini, Perplexity e AI Overviews:
L'analisi di Peec AI su 30 milioni di fonti ha identificato i 10 domini più citati su tutte le piattaforme come: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar e Healthline .
Le discussioni e i forum generati dagli utenti di Reddit forniscono un dataset vasto e diversificato di contenuti conversazionali e di problem-solving. In uno studio Statista del giugno 2025, Reddit ha catturato il 40,1% di tutti i riferimenti citati, ben distanziando Wikipedia al secondo posto con il 26,3% . Su Perplexity, Reddit può rappresentare circa 1 citazione su 5
.
Gli analisti sottolineano la capacità di Reddit di rispondere a domande di nicchia, basate su opinioni e 'how-to', con cui le fonti enciclopediche tradizionali faticano — rendendolo particolarmente prezioso per l'AI conversazionale .
Sebbene Reddit guidi in generale, le classifiche dei singoli motori rivelano differenze importanti:
Solo 7 siti web compaiono tra i 50 domini più citati da tutti e tre i motori principali (ChatGPT, Perplexity, Google AI Overviews), e solo l'11% dei domini viene citato sia da ChatGPT che da Perplexity .
È importante separare ciò che i LLM citano nei loro output da ciò su cui vengono addestrati. Per i dati di addestramento, la fonte dominante in volume è Common Crawl — un repository aperto di petabytes di dati web grezzi che alimenta modelli come GPT-3, LLaMA e T5 . Il GPT-3 di OpenAI, ad esempio, ha tratto il 60% dei suoi token di addestramento da una versione filtrata di Common Crawl
.
Gli elenchi di citazioni sopra riportati riflettono ciò che i LLM citano quando generano risposte — un insieme di fonti molto più piccolo e curato che il modello ha imparato a considerare autorevole.
Se il tuo obiettivo è essere citato dai motori AI, i dati sono chiari: devi guadagnarti un posto nella ristretta lista di domini di fiducia. La lunga coda del web è funzionalmente invisibile alla maggior parte degli output AI, se non per query molto di nicchia.
Le strategie che funzionano includono contribuire a Wikipedia, ottenere copertura su Forbes o Healthline, costruire una solida presenza su YouTube e LinkedIn e guadagnare citazioni su Reddit. I formati che favoriscono il successo delle citazioni includono gli elenchi puntati (listicle), che rappresentano circa il 50% delle migliori citazioni AI, e le pagine con elenchi ordinati o non ordinati (presenti sull'80% delle pagine citate dall'AI) .
In sintesi: Reddit, Wikipedia e YouTube sono i tre domini più citati dai principali motori LLM oggi, con un piccolo gruppo di siti autorevoli di media, salute e riferimento che completano la fascia alta. Essere citati dall'AI significa, prima di tutto, essere citati da questi domini.
Comments
0 comments