Untuk menguji apakah pendekatan isolasionis ini benar-benar efektif, Snowflake melakukan studi ablasi pada subset 120 pertanyaan dari tolok ukur BrowseComp . Tiga konfigurasi diuji: BBS Tergerbang, perpesanan peer-to-peer yang sepenuhnya tidak dibatasi, dan operasi agen tunggal independen
.
Hasilnya dengan tegas memvalidasi arsitektur tersebut. Perpesanan peer-to-peer tanpa batasan langsung meruntuhkan keragaman bukti. Tim mengamati tumpang tindih Jaccard yang tinggi antara kumpulan URL yang diambil oleh agen-agen berbeda. Alih-alih membagi beban riset untuk mencakup lebih banyak area, para agen malah berkumpul di halaman yang sama, mengejar petunjuk awal yang sama. Lebih kritis lagi, Ukuran Sampel Efektif (Effective Sample Size/ESS)—sebuah ukuran berapa banyak penyelidik yang benar-benar berbeda yang ditiru oleh sistem—secara signifikan lebih tinggi dengan pembatas baca yang diterapkan. Isolasi memaksa eksplorasi beragam yang dihancurkan oleh obrolan bebas .
Desain ArcticSwarm menghasilkan lompatan kinerja yang masif. Pada tolok ukur riset mendalam hibrida internal Snowflake sendiri, ArcticSwarm mencapai akurasi 64,18% dibandingkan dengan baseline 47,08% untuk konfigurasi agen tunggal, sebuah peningkatan lebih dari sepertiganya .
Hasilnya pada tolok ukur publik bahkan lebih mencolok. Pada dataset BrowseComp lengkap (1.266 pertanyaan), kinerja sangat berlapis berdasarkan seberapa banyak konsensus yang dicapai selama peninjauan :
Sebagai perbandingan, pada dataset BrowseComp asli, LLM standar seperti GPT-4o dan GPT-4.5 mencapai akurasi mendekati nol (0,6%–0,9%). Model spesialis penalaran milik OpenAI, o1, meningkat menjadi sekitar 10%, sementara OpenAI Deep Research, sebuah agen penjelajah khusus, mencapai akurasi ~51,5% .
Di tolok ukur BrowseComp-Plus yang lebih terkontrol, konfigurasi pesaing terkuat adalah GPT-5 yang dipasangkan dengan retriever Qwen3-8B, mencapai akurasi 70,12%, dan o3 yang mencapai 63,49% dengan retriever yang sama . Angka 86,4% ArcticSwarm pada subset BrowseComp-Plus tersulit yang diverifikasi ganda jelas melampaui baseline yang telah mapan ini
.
Konsep-konsep ini tidak hanya terbatas pada riset akademis. Snowflake kini mengintegrasikan metodologi anti-groupthink ArcticSwarm ke dalam platform korporatnya melalui Mode Deep Research Snowflake CoWork . Integrasi ini dirancang untuk memungkinkan pekerja pengetahuan menjalankan analisis yang aman dan berkeyakinan tinggi langsung di dalam lingkungan data Snowflake yang terkelola. Alur kerja ini didukung oleh tiga fitur utama
:
Bagi pengguna korporat, ini berarti kemampuan ArcticSwarm untuk menolak bias konfirmasi dapat diterapkan pada kombinasi rumit dari kueri database SQL terstruktur dan penjelajahan dokumen internal tidak terstruktur, memberikan jawaban yang telah bertahan dari pemeriksaan silang independen yang ketat sebelum disajikan kepada pengambil keputusan manusia.
Comments
0 comments