Untuk menguji sama ada pendekatan isolasi ini benar-benar berkesan, Snowflake menjalankan kajian ablasi pada subset 120 soalan daripada penanda aras BrowseComp . Tiga konfigurasi telah diuji: BBS Berpagar, pemesejan rakan-ke-rakan tanpa kekangan, dan larian ejen tunggal bebas
.
Keputusannya dengan jelas mengesahkan seni bina tersebut. Pemesejan rakan-ke-rakan tanpa kekangan serta-merta meruntuhkan kepelbagaian bukti. Pasukan itu memerhatikan pertindihan Jaccard yang tinggi antara set URL yang diambil oleh ejen yang berbeza. Daripada membahagikan beban penyelidikan untuk meliputi lebih banyak bidang, ejen-ejen tersebut tertumpu pada halaman yang sama, mengejar petunjuk awal yang sama. Lebih kritikal lagi, Saiz Sampel Berkesan (ESS)—ukuran berapa ramaikah penyiasat yang benar-benar berbeza yang ditiru oleh sistem—adalah jauh lebih tinggi dengan adanya halangan bacaan. Isolasi itu memaksa penerokaan yang pelbagai yang mana perbualan bebas telah musnahkan .
Reka bentuk ArcticSwarm diterjemahkan kepada peningkatan prestasi yang besar. Pada penanda aras penyelidikan mendalam hibrid dalaman Snowflake sendiri, ArcticSwarm mencapai 64.18% ketepatan berbanding 47.08% garis asas untuk konfigurasi ejen tunggal, peningkatan lebih daripada satu pertiga .
Keputusannya pada penanda aras awam adalah lebih menarik. Pada dataset penuh BrowseComp (1,266 soalan), prestasi adalah sangat berstrata berdasarkan sejauh mana konsensus dicapai semasa semakan :
Sebagai perbandingan, pada dataset BrowseComp asal, LLM standard seperti GPT-4o dan GPT-4.5 mencapai ketepatan hampir sifar (0.6%–0.9%). Model pengkhususan penaakulan OpenAI, o1, bertambah baik kepada kira-kira 10%, manakala OpenAI Deep Research, ejen pelayaran khusus, mencapai ~51.5% ketepatan .
Pada penanda aras BrowseComp-Plus yang lebih terkawal, konfigurasi bersaing terkuat adalah GPT-5 yang digandingkan dengan pengambil Qwen3-8B, mencapai ketepatan 70.12%, dan o3 mencapai 63.49% dengan pengambil yang sama . ArcticSwarm pada 86.4% pada subset dwi-sahkan BrowseComp-Plus yang paling sukar jelas mengatasi garis asas yang telah ditetapkan ini
.
Konsep-konsep ini tidak terhad kepada penyelidikan akademik. Snowflake kini mengintegrasikan metodologi kalis 'groupthink' ArcticSwarm ke dalam platform perusahaannya melalui Mod Deep Research Snowflake CoWork . Integrasi ini direka untuk membolehkan pekerja pengetahuan menjalankan analisis yang selamat dan berkeyakinan tinggi secara langsung dalam persekitaran data terkawal Snowflake. Aliran kerja ini disokong oleh tiga ciri utama
:
Bagi pengguna perusahaan, ini bermakna keupayaan ArcticSwarm untuk menentang bias pengesahan boleh digunakan untuk gabungan rumit pertanyaan pangkalan data SQL berstruktur dan pelayaran dokumen dalaman tidak berstruktur, memberikan jawapan yang telah bertahan daripada pemeriksaan silang bebas yang rapi sebelum ia dipersembahkan kepada pembuat keputusan manusia.
Comments
0 comments