实验结果有力地证明了该架构的正确性。不受限的点对点消息立即导致了证据多样性的崩溃。 研究团队观察到,不同智能体抓取的URL集合之间出现了高度的Jaccard相似度(高重叠率)。这意味着智能体们并没有分工去覆盖更广的信息面,而是收敛到了相同的网页上,共同追逐那条最先出现的线索。更关键的是,在有“阅读屏障”存在的情况下,系统的有效样本量(Effective Sample Size,简称ESS),也就是衡量系统模拟了多少个真正独立思考研究员的指标,远远高于自由聊天的模式。隔离机制所强制催生的多样性探索,恰恰是被自由聊天摧毁掉的东西 。
ArcticSwarm的设计理念转化为了巨大的性能优势。在Snowflake内部的一个混合型深度研究基准上,ArcticSwarm的准确率达到了64.18%,而单智能体的基线配置仅为47.08%,性能提升超过三分之一 。
相比之下,在原始的BrowseComp数据集上,GPT-4o和GPT-4.5这样的标准大语言模型准确率几乎为零(0.6%–0.9%)。专攻推理的OpenAI o1模型提升到了约10%,而受过专门训练的OpenAI Deep Research作为一个专门的浏览智能体,取得了约51.5%的准确率 。
在更可控的BrowseComp-Plus基准测试中,最强的竞争配置是GPT-5搭配Qwen3-8B检索器,准确率达到70.12%,以及o3搭配同样的检索器,达到63.49% 。而ArcticSwarm在BrowseComp-Plus中最严苛的“双重验证”子集上取得的86.4%的准确率,清晰地超越了这些已有的基线水平
。
这套技术并未止步于学术研究。Snowflake正将ArcticSwarm反群体迷思的方法论,通过Snowflake CoWork的“深度研究模式”,整合到其企业平台中 。这项功能旨在让知识工作者在Snowflake受管控的数据环境中,直接运行安全、高置信度的分析。其工作流由三个关键功能支撑
:
对于企业用户而言,这意味着ArcticSwarm抵御确认偏误的能力,可以被应用于结构化SQL数据库查询和非结构化内部文档浏览的复杂混合场景中。在给人类决策者提供任何答案之前,这些答案已然经受住了一场严谨的、独立的交叉验证。
Comments
0 comments