Để dễ hình dung: Chỉ 15 trang web, trong tổng số khoảng 1,1 tỷ trang web trên internet, đang kiểm soát hơn 2/3 những gì AI 'khuyên' cho hàng tỷ người dùng mỗi ngày . Sự tập trung này còn khủng khiếp hơn bất cứ điều gì mà Google PageRank từng tạo ra trong suốt 25 năm thống trị việc khám phá web
.
Các tên miền này liên tục xuất hiện ở vị trí cao trong bảng xếp hạng trên khắp ChatGPT, Google AI Mode, Gemini, Perplexity và AI Overviews:
Phân tích của Peec AI dựa trên 30 triệu nguồn cho thấy 10 tên miền được trích dẫn nhiều nhất trên tất cả các nền tảng là: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar và Healthline .
Các cuộc thảo luận và diễn đàn do người dùng tạo trên Reddit cung cấp một kho dữ liệu khổng lồ, đa dạng về nội dung mang tính đàm thoại và giải quyết vấn đề. Trong một nghiên cứu của Statista vào tháng 6 năm 2025, Reddit chiếm tới 40,1% tổng số tài liệu tham khảo được trích dẫn, bỏ xa Wikipedia đứng thứ hai với 26,3% . Trên Perplexity, cứ khoảng 5 trích dẫn thì có 1 trích dẫn đến từ Reddit
.
Các nhà phân tích chỉ ra khả năng của Reddit trong việc trả lời các câu hỏi dạng dài, dựa trên quan điểm và hướng dẫn 'cách làm' – những dạng câu hỏi mà các nguồn bách khoa truyền thống gặp khó khăn – khiến nó trở nên đặc biệt giá trị đối với AI hội thoại .
Reddit dẫn đầu toàn cục, nhưng thứ hạng chi tiết trên từng nền tảng lại có những khác biệt đáng chú ý:
Chỉ có 7 trang web xuất hiện trong top 50 tên miền được trích dẫn nhiều nhất trên cả ba nền tảng lớn (ChatGPT, Perplexity, Google AI Overviews), và chỉ 11% tên miền được cả ChatGPT và Perplexity cùng trích dẫn .
Cần phân biệt rõ giữa những gì LLM trích dẫn trong câu trả lời và những gì chúng được huấn luyện trên đó. Với dữ liệu huấn luyện, nguồn chiếm ưu thế về khối lượng là Common Crawl – một kho lưu trữ mở chứa hàng petabyte dữ liệu web thô, là nền tảng cho các mô hình như GPT-3, LLaMA và T5 . GPT-3 của OpenAI, ví dụ, đã lấy 60% token huấn luyện từ một phiên bản đã được lọc của Common Crawl
.
Danh sách trích dẫn ở trên phản ánh những gì LLM tham chiếu khi tạo ra câu trả lời – một tập hợp nguồn nhỏ hơn và được chọn lọc kỹ càng hơn nhiều, mà mô hình đã học để coi là có thẩm quyền.
Nếu mục tiêu của bạn là được các công cụ AI trích dẫn, dữ liệu đã rất rõ ràng: bạn cần phải giành được một vị trí trong danh sách ngắn các tên miền đáng tin cậy. Phần còn lại của web gần như vô hình trước các đầu ra AI, ngoại trừ các truy vấn rất ngách.
Các chiến lược hiệu quả bao gồm: đóng góp cho Wikipedia, được nhắc đến trên Forbes hay Healthline, xây dựng sự hiện diện mạnh mẽ trên YouTube và LinkedIn, và tạo ra các cuộc thảo luận trên Reddit. Về định dạng nội dung, các bài viết dạng danh sách (listicle) chiếm khoảng 50% số trích dẫn AI hàng đầu, và các trang có danh sách (có thứ tự hoặc không) xuất hiện trên 80% các trang được AI trích dẫn .
Nói ngắn gọn: Reddit, Wikipedia và YouTube là ba tên miền được trích dẫn nhiều nhất trên các công cụ LLM lớn hiện nay, cùng với một cụm nhỏ các trang tin tức, sức khỏe và tham khảo có uy tín khác. Để được AI trích dẫn, trước tiên bạn phải được những trang web này trích dẫn.
Comments
0 comments