以下域名在ChatGPT、Google AI Mode、Gemini、Perplexity和AI Overviews的引用排名中始终位居前列:
Peec AI对3000万个来源的分析发现,所有平台引用最多的前10个域名为:Reddit、YouTube、LinkedIn、Wikipedia、Forbes、Facebook、Yelp、Amazon、TechRadar和Healthline。
Reddit上用户生成的讨论和论坛内容,为AI提供了海量、多样化的对话式和问题解决型数据。在Statista 2025年6月的一项研究中,Reddit占据了40.1%的引用份额,远高于第二名Wikipedia的26.3%。在Perplexity上,Reddit的引用占比大约能达到五分之一
。
尽管Reddit整体领先,但各AI引擎的内部排名揭示了重要区别:
在ChatGPT、Perplexity和Google AI Overviews三大引擎中,只有7个网站同时出现在各自的前50个引用域名中;同时被ChatGPT和Perplexity引用的域名比例仅为11%。
区分大语言模型在输出中引用的内容和它们被训练的内容至关重要。就训练数据而言,按体积计算的最大来源是Common Crawl——一个开放的网络爬虫数据存储库,为GPT-3、LLaMA和T5等模型提供了PB级别的原始网页数据。例如,OpenAI的GPT-3,其60%的训练token来自Common Crawl的过滤版本
。
上述的引用列表反映的是大语言模型在生成回复时所参考的来源——这是一个更小、更精炼的来源集合,是模型学会将其视为权威的资料来源。
如果你的目标是让你的内容被AI引擎引用,数据很明确:你需要跻身于那少数几个受信任的域名之中。对于大多数AI输出而言,长尾网站除了针对极少数专业问题外,几乎是不可见的。
有效的策略包括:为Wikipedia贡献内容、争取在Forbes或Healthline等网站上的报道、在YouTube和LinkedIn上建立影响力,以及在Reddit上赢得引用。同时,采用列表文章(listicle)格式(约占顶级AI引用的50%)以及在页面上使用有序或无序列表(出现在80%被AI引用的页面上)也有助于提高被引用的几率。
简而言之:Reddit、Wikipedia和YouTube是当今主流大语言模型引用最多的三个域名,加上一小部分权威的媒体、健康和参考类网站,构成了AI引用的顶级梯队。要想被AI引用,首先要争取被这些顶级域名引用。
Comments
0 comments