쉽게 말해, 인터넷 상의 약 11억 개 웹사이트 중 단 15개 사이트가 매일 수십억 사용자에게 AI 엔진이 추천하는 내용의 3분의 2 이상을 통제하고 있는 셈입니다 . 이러한 집중도는 25년간 웹 검색을 지배했던 구글의 페이지랭크 알고리즘보다 훨씬 더 극단적입니다
.
다음 도메인들은 ChatGPT, Google AI Mode, Gemini, Perplexity, AI Overviews 전반에 걸쳐 인용 순위 상위권에 일관되게 등장합니다:
Peec AI의 3천만 소스 분석에 따르면 모든 플랫폼에서 가장 많이 인용된 상위 10개 도메인은 레딧, 유튜브, 링크드인, 위키피디아, 포브스, 페이스북, 옐프, 아마존, 테크레이더, 헬스라인입니다 .
레딧의 사용자 생성 토론과 포럼은 방대하고 다양한 대화형 및 문제 해결 콘텐츠 데이터 세트를 제공합니다. 2025년 6월 Statista 연구에서 레딧은 전체 인용 참고 자료의 40.1%를 차지하며 2위인 위키피디아(26.3%)를 크게 앞질렀습니다 . Perplexity에서는 레딧이 인용의 약 5분의 1을 차지합니다
.
분석가들은 레딧이 전통적인 백과사전식 정보원이 다루기 어려운 '롱테일(Long-tail)', 의견 기반, 방법론(How-to) 질문에 답변할 수 있는 능력이 특징이며, 특히 대화형 AI에 매우 가치 있다고 지적합니다 .
레딧이 전체적으로 선두를 달리지만, 개별 AI 엔진의 순위를 살펴보면 중요한 차이점이 드러납니다:
세 가지 주요 AI 엔진(ChatGPT, Perplexity, Google AI Overviews) 전체에서 상위 50개 인용 도메인에 공통으로 포함된 웹사이트는 단 7개에 불과하며, ChatGPT와 Perplexity 모두에 인용된 도메인은 11%에 그칩니다 .
LLM이 출력에서 인용하는 것과 훈련에 사용되는 것을 구분하는 것이 중요합니다. 훈련 데이터의 경우, 부피 기준으로 가장 지배적인 출처는 Common Crawl이라는 오픈 리포지토리로, GPT-3, LLaMA, T5와 같은 모델에 공급되는 페타바이트 규모의 원시 웹 데이터를 포함합니다 . OpenAI의 GPT-3는 예를 들어 훈련 토큰의 60%를 Common Crawl의 필터링된 버전에서 가져왔습니다
.
위의 인용 목록은 LLM이 응답을 생성할 때 참조하는 것, 즉 모델이 권위 있다고 학습한 훨씬 더 작고 선별된 출처 세트를 반영합니다.
만약 여러분의 목표가 AI 엔진에 인용되는 것이라면, 데이터는 명확합니다. 신뢰받는 단기 리스트에 이름을 올려야 합니다. 웹의 긴 꼬리(롱테일)는 특정 틈새 질문을 제외하고는 대부분의 AI 출력에서 사실상 보이지 않습니다.
효과적인 전략으로는 위키피디아에 기여하기, 포브스나 헬스라인에 기사 게재하기, 강력한 유튜브 및 링크드인 입지 구축하기, 레딧에서 인용 획득하기 등이 있습니다. 인용 성공률을 높이는 형식으로는 목록형 기사(리스트클, Listicle, 상위 AI 인용의 약 50% 차지)와 정렬 또는 비정렬 목록이 포함된 페이지(인용된 페이지의 80%에 존재)가 있습니다 .
요약하자면: 레딧, 위키피디아, 유튜브는 오늘날 주요 LLM 엔진 전체에서 가장 많이 인용되는 세 가지 도메인이며, 소수의 권위 있는 미디어, 건강, 참고 사이트가 그 뒤를 잇고 있습니다. AI에 인용되고 싶다면, 먼저 이 도메인들에 인용되는 것이 핵심입니다.
Comments
0 comments