結果一巴掌打醒咗好多人。無限制嘅點對點通訊,極速令到證據嘅多樣性崩潰。 研究團隊觀察到,唔同智能體提取嘅網址(URL),佢哋嘅 Jaccard 重疊度高到得人驚。換句話講,佢哋根本冇分工去覆蓋更多地方,而係一齊湧去睇嗰幾版資料,個個都跟住同一個早期線索走。
更關鍵嘅係,量度系統模擬到幾多個真正獨立調查員嘅「有效樣本數」(Effective Sample Size,ESS),喺有閱讀屏障嘅情況下明顯高好多。隔離狀態強迫智能體進行多元化探索,而呢樣嘢正正係自由傾偈所摧毀咗嘅嘢 。
ArcticSwarm 嘅設計唔係得個講字,反映喺實際戰績上就係大幅嘅效能提升。喺 Snowflake 內部嘅混合深度研究基準測試入面,ArcticSwarm 嘅準確度達到 64.18%,相比起單一智能體配置嘅 47.08%,足足提升咗超過三分一 。
呢個結果證明,後續覆檢階段嘅質素,同起初嘅隔離一樣咁關鍵。
比較返對手,喺原始 BrowseComp 數據集上,標準嘅大型語言模型如 GPT-4o 同 GPT-4.5,準確度接近零(0.6%–0.9%)。OpenAI 專注推理嘅 o1 模型好少少,提升到大約 10%,而專門訓練嚟做持續瀏覽嘅 OpenAI Deep Research 智能體,準確度就大約去到 51.5% 。
再睇更加受控嘅 BrowseComp-Plus 基準,最強嘅競爭配置係 GPT-5 配合 Qwen3-8B 檢索器,達到 70.12% 準確度,而 o3 用同一個檢索器就達到 63.49% 。ArcticSwarm 喺 BrowseComp-Plus 最難、需要雙重驗證嘅子集上達到嘅 86.4%,明顯超越咗呢啲現有嘅基準
。
呢啲打破小圈子思維嘅概念並唔係留喺學術論文度。Snowflake 而家正將 ArcticSwarm 呢套反小圈子思維嘅方法論,整合到佢嘅企業平台,透過 Snowflake CoWork 嘅「深度研究模式」 推出 。
對企業用家嚟講,即係 ArcticSwarm 抵抗確認偏誤(Confirmation bias)嘅能力,可以應用到結構化 SQL 數據庫查詢,同非結構化內部文件瀏覽嘅混合流程度。佢俾到嘅答案,係經過咗嚴格、獨立嘅交叉驗證,先會呈現俾人類決策者睇。
Comments
0 comments