この数字の意味を考えてみてほしい。インターネット上には約11億のWebサイトが存在する。そのうちたった15のサイトが、AIエンジンが毎日数十億のユーザーに提供する情報の3分の2以上をコントロールしているのだ。この集中度は、25年にわたってウェブ発見を支配したGoogleのPageRankでさえ達成できなかったものだ
。
以下のドメインは、ChatGPT、Google AI Mode、Gemini、Perplexity、AI Overviewsのすべてで、一貫して引用ランキングの上位に登場する。
Peec AIが3000万の情報源を分析したところ、全プラットフォームで最も多く引用されたトップ10は次の通り:Reddit、YouTube、LinkedIn、Wikipedia、Forbes、Facebook、Yelp、Amazon、TechRadar、Healthline。
Redditのユーザー生成ディスカッションやフォーラムは、会話形式の問題解決コンテンツの膨大で多様なデータセットを提供する。2025年6月のStatistaの調査では、Redditが引用全体の40.1%を獲得し、2位のWikipedia(26.3%)に大差をつけた。Perplexityでは、約5回に1回の割合でRedditが引用される
。
Redditが全体をリードする一方で、個々のエンジンのランキングには重要な違いがある。
3つの主要エンジン(ChatGPT、Perplexity、Google AI Overviews)すべてのトップ50に登場するサイトはわずか7つ。ChatGPTとPerplexityの両方で引用されるドメインはわずか11%だ。
ここで重要なのは、LLMが出力で引用するものと、LLMが訓練されるものを区別することだ。訓練データの場合、量的に最も支配的なソースはCommon Crawl——ペタバイト単位の生のWebデータを蓄積するオープンリポジトリで、GPT-3、LLaMA、T5などのモデルにデータを供給している。OpenAIのGPT-3は、訓練トークンの60%をCommon Crawルのフィルタリング版から取得した
。
上記の引用リストは、LLMが回答を生成する際に参照するソースを反映している。これは、モデルが「信頼できる」と学習した、はるかに小規模で厳選されたソース群だ。
AIエンジンに引用されることを目標とするなら、データは明白だ。まず「信用される15サイト」のリストに食い込むか、そのサイトから引用されるポジションを築く必要がある。ウェブのロングテールは、ニッチなクエリを除いて、ほとんどのAI出力にとって事実上「見えない」存在なのだ。
具体的な戦略としては、Wikipediaへの寄稿、ForbesやHealthlineでの記事掲載、YouTubeやLinkedInでの強力なプレゼンス構築、そしてRedditで引用されるための投稿が有効だ。また、引用を獲得しやすいフォーマットも判明している。いわゆる「ランキング形式」「リスト形式」の記事は、AIのトップ引用の約50%を占め、順序付き・順序なしリストを含むページは、AIに引用されるページの80%に存在する。
要するに、現時点で主要LLMエンジンが最も多く引用するのはReddit、Wikipedia、YouTubeの3つ。そして、権威あるメディア、健康情報サイト、リファレンスサイトの小さなクラスターがトップ層を構成している。AIに「選ばれる」ということは、まずこれらのドメインに「選ばれる」ことを意味する。
Comments
0 comments