以下呢啲網站喺ChatGPT、Google AI Mode、Gemini、Perplexity同AI Overviews嘅引用排名入面 consistently 排喺最前:
Peec AI分析3000萬個來源後,總結出跨平台嘅頭10個最常引用網站係:Reddit、YouTube、LinkedIn、Wikipedia、Forbes、Facebook、Yelp、Amazon、TechRadar同Healthline。
Reddit嘅用戶生成討論同論壇內容,提供咗一個大量、多元化嘅對話同解決問題嘅數據庫。喺2025年6月Statista嘅研究中,Reddit食咗40.1%嘅引用參考,遠遠拋離第二位Wikipedia嘅26.3%。喺Perplexity,Reddit大約佔咗五分之一嘅引用
。
雖然Reddit整體領先,但每個引擎嘅個別排名反映出重要差異:
只有7個網站同時出現喺ChatGPT、Perplexity同Google AI Overviews三個引擎嘅頭50名最多引用網站入面,而同時被ChatGPT同Perplexity引用嘅網站比例只得11%。
大家要搞清楚:大型語言模型輸出時引用嘅網站,同佢哋訓練時用嘅數據係兩回事。
訓練數據方面,份額最大嘅來源係Common Crawl——一個開放嘅網絡數據倉庫,儲存咗PB級別嘅原始網頁數據,用嚟訓練GPT-3、LLaMA、T5等模型。OpenAI嘅GPT-3,佢嘅訓練 tokens 有60%嚟自經過篩選嘅Common Crawl版本
。
上面講嘅引用排名,反映嘅係大型語言模型生成回答時會參考嘅來源——呢個係一個細好多、經過篩選,而且模型認為權威性高嘅網站清單。
如果你嘅目標係想俾AI引擎引用,數據講得好清楚:你一定要打入呢個短名單。網絡嘅長尾部分,除咗好冷門嘅查詢之外,對大部分AI輸出嚟講基本上係隱形嘅。
有效嘅策略包括:投稿去Wikipedia、爭取喺Forbes或Healthline呢類網站嘅報導、建立強大嘅YouTube同LinkedIn存在感,同埋喺Reddit上獲得引用。另外,容易提高引用成功率嘅內容格式包括清單式文章(listicles,大約佔頂級AI引用嘅50%)同埋包含有序或無序列表嘅頁面(呢類頁面喺被AI引用嘅網頁中佔咗80%)。
簡單講:Reddit、Wikipedia同YouTube係目前各大主要大型語言模型引擎最常引用嘅三個網站,加上一小群權威媒體、健康同參考網站,組成咗頂級嘅引用階層。想被AI引用,首先要被呢啲網站引用。
Comments
0 comments