換句話說:在全球約11億個網站中,只有15個網站控制了AI每天向數十億用戶推薦的內容中超過三分之二的來源 。這種集中程度遠超過Google PageRank在其25年網路發現主導地位期間所產生的任何現象
。
這些網站在ChatGPT、Google AI模式、Gemini、Perplexity和AI Overviews的引用排名中 consistently 位居前列:
Peec AI對3000萬個來源的分析發現,所有平台中引用最多的前10大網站為:Reddit、YouTube、LinkedIn、維基百科、Forbes、Facebook、Yelp、Amazon、TechRadar、Healthline 。
Reddit的使用者生成討論與論壇提供了大量多樣化的對話式及問題解決內容。在一項2025年6月的Statista研究中,Reddit囊括了40.1%的所有引用參考,遠高於第二名的維基百科(26.3%)。在Perplexity上,Reddit約佔五分之一引用
。
雖然Reddit總體領先,但各引擎的個別排名揭示了重要差異:
在所有三大主要引擎(ChatGPT、Perplexity、Google AI Overviews)的前50大引用網站中,只有7個網站同時出現;而同時被ChatGPT和Perplexity引用的網站僅佔11% 。
重要區別在於:大型語言模型在輸出中引用的內容,與它們被訓練的內容是兩回事。在訓練數據方面,按數量計算的主導來源是Common Crawl——一個開放儲存庫,包含PB級別的原始網路數據,為GPT-3、LLaMA和T5等模型提供資料 。例如,OpenAI的GPT-3有60%的訓練token來自Common Crawl的過濾版本
。
上述引用列表反映的是LLM在生成回覆時所參考的來源——這是一個規模小得多、更精選的來源集合,模型已學會將其視為具權威性的內容。
如果你的目標是讓AI引擎引用你的內容,數據很明確:你必須設法擠進這份信任網站的短名單。網路上的長尾內容,對於大多數AI輸出而言,實際上形同隱形,除非是非常冷門的查詢。
可行的策略包括:為維基百科貢獻內容、獲得Forbes或Healthline的報導、在YouTube和LinkedIn建立強大影響力,以及在Reddit上贏得引用。有助於提高引用成功率的內容格式包括列表式文章(約佔頂尖AI引用的50%)以及包含有序或無序列表的頁面(出現在80%被AI引用的頁面中)。
簡而言之:Reddit、維基百科和YouTube是目前主要LLM引擎中引用最多的三個網站,加上一小群權威媒體、健康和參考網站構成頂層集團。要讓AI引用你,首先得讓這些網站引用你。
Comments
0 comments