Sebagai perbandingan: hanya 15 laman web, daripada kira-kira 1.1 bilion yang wujud di internet, mengawal lebih dua pertiga daripada apa yang enjin AI syorkan kepada berbilion pengguna setiap hari . Tumpuan ini jauh lebih ekstrem daripada apa yang dihasilkan oleh algoritma PageRank Google sepanjang 25 tahun penguasaannya dalam penemuan web
.
Domain-domain ini secara konsisten muncul di tangga teratas dalam kedudukan kutipan merentas ChatGPT, Google AI Mode, Gemini, Perplexity, dan AI Overviews:
Analisis Peec AI terhadap 30 juta sumber mendapati 10 domain paling kerap dipetik merentas semua platform ialah: Reddit, YouTube, LinkedIn, Wikipedia, Forbes, Facebook, Yelp, Amazon, TechRadar, dan Healthline .
Perbincangan dan forum yang dijana pengguna di Reddit menyediakan set data yang luas dan pelbagai tentang kandungan perbualan dan penyelesaian masalah. Dalam satu kajian Statista dari Jun 2025, Reddit meraih 40.1% daripada semua rujukan yang dipetik, jauh mendahului Wikipedia di tempat kedua dengan 26.3% . Pada Perplexity, Reddit boleh menyumbang kira-kira 1 daripada setiap 5 kutipan
.
Penganalisis menunjukkan keupayaan Reddit untuk menjawab soalan ekor panjang, berdasarkan pendapat, dan cara-untuk yang sukar dijawab oleh sumber ensiklopedia tradisional — menjadikannya sangat berharga untuk AI perbualan .
Walaupun Reddit mendahului secara keseluruhan, kedudukan enjin individu mendedahkan perbezaan penting:
Hanya 7 laman web muncul dalam 50 domain paling kerap dipetik merentas ketiga-tiga enjin utama (ChatGPT, Perplexity, Google AI Overviews), dan hanya 11% domain dipetik oleh kedua-dua ChatGPT dan Perplexity .
Penting untuk membezakan antara apa yang LLM petik dalam output mereka dengan apa yang mereka latih. Untuk data latihan, sumber dominan dari segi jumlah ialah Common Crawl — repositori terbuka data web mentah yang memacu model seperti GPT-3, LLaMA, dan T5 . GPT-3 OpenAI, sebagai contoh, memperoleh 60% token latihannya daripada versi Common Crawl yang ditapis
.
Senarai kutipan di atas mencerminkan apa yang LLM rujuk semasa menjana respons — set sumber yang lebih kecil dan lebih terpilih yang telah dipelajari oleh model untuk dianggap sebagai autoritatif.
Jika matlamat anda adalah untuk dipetik oleh enjin AI, datanya jelas: anda perlu mendapat tempat dalam senarai pendek domain yang dipercayai. Ekor panjang web sebahagian besarnya tidak kelihatan kepada kebanyakan output AI di luar pertanyaan khusus.
Antara strategi yang berkesan termasuk menyumbang ke Wikipedia, mendapat liputan di Forbes atau Healthline, membina kehadiran kukuh di YouTube dan LinkedIn, dan meraih kutipan di Reddit. Format yang meningkatkan kejayaan kutipan termasuk artikel berbentuk senarai (listikel) yang menyumbang kira-kira 50% kutipan AI teratas, dan halaman dengan senarai teratur atau tidak teratur yang terdapat pada 80% halaman yang dipetik AI .
Pendek kata: Reddit, Wikipedia, dan YouTube adalah tiga domain paling kerap dipetik merentas enjin LLM utama hari ini, dengan sekumpulan kecil laman media, kesihatan, dan rujukan autoritatif yang melengkapkan peringkat teratas. Untuk dipetik AI, anda perlu dipetik oleh domain-domain ini terlebih dahulu.
Comments
0 comments