Чтобы проверить, действительно ли такой изоляционистский подход работает, Snowflake провела абляционное исследование на выборке из 120 вопросов из бенчмарка BrowseComp . Тестировались три конфигурации: управляемая BBS, полностью неограниченный обмен сообщениями между агентами и независимые одиночные запуски
.
Результаты наглядно подтвердили эффективность архитектуры. Неограниченный обмен сообщениями мгновенно уничтожил разнообразие доказательств. Исследователи наблюдали высокий коэффициент Жаккара (Jaccard overlap) для наборов URL-адресов, полученных разными агентами. Вместо того чтобы разделить нагрузку и охватить больше данных, агенты сходились на одних и тех же страницах, гоняясь за первой же найденной зацепкой. Более того, эффективный размер выборки (Effective Sample Size, ESS) — показатель, отражающий, сколько действительно независимых исследователей эмулирует система, — был значительно выше при использовании барьера чтения. Изоляция заставляла агентов искать разнообразную информацию, в то время как свободный чат эту возможность разрушал .
Дизайн ArcticSwarm напрямую конвертируется в значительный прирост производительности. На собственном внутреннем гибридном бенчмарке Snowflake для глубокого поиска ArcticSwarm достиг точности 64,18% по сравнению с 47,08% у одномодельных конфигураций, то есть улучшение составило более трети .
Ещё более впечатляющими оказались результаты на публичных бенчмарках. На полном наборе данных BrowseComp (1266 вопросов) производительность сильно зависела от того, насколько полным был консенсус при рецензировании :
Для сравнения, в оригинальном датасете BrowseComp стандартные модели вроде GPT-4o и GPT-4.5 демонстрируют околонулевую точность (0,6%–0,9%). Релиз OpenAI o1, натренированный на логические рассуждения, улучшил результат примерно до 10%, в то время как OpenAI Deep Research, специализированный поисковый агент, достиг точности ~51,5% .
В более контролируемом бенчмарке BrowseComp-Plus лучшими из конкурирующих конфигураций были GPT-5 в паре с ретривером Qwen3-8B (точность 70,12%) и o3 с тем же ретривером (63,49%) . Результат ArcticSwarm в 86,4% на самом сложном, прошедшем двойную верификацию подмножестве BrowseComp-Plus значительно превосходит эти ориентиры
.
Эти концепции не остаются лишь академическими исследованиями. Snowflake уже интегрирует устойчивую к групповому мышлению методологию ArcticSwarm в свою корпоративную платформу через режим глубокого исследования в Snowflake CoWork . Эта интеграция призвана позволить бизнес-пользователям запускать безопасный и надёжный анализ непосредственно в управляемой среде данных Snowflake. Рабочий процесс поддерживается тремя ключевыми функциями
:
Для корпоративных пользователей это означает, что способность ArcticSwarm противостоять предвзятости подтверждения (confirmation bias) может быть применена к сложной комбинации структурированных SQL-запросов к базам данных и поиску в неструктурированных внутренних документах. Это позволяет получать ответы, которые прошли строгую, независимую перекрёстную проверку ещё до того, как они попадут на стол к руководителю, принимающему решения.
Comments
0 comments