Щоб перевірити, чи справді ізоляційний підхід працює, Snowflake провела абляційне дослідження на підмножині зі 120 запитань бенчмарку BrowseComp . Тестувалися три конфігурації: «Закрита дошка оголошень», повністю необмежений обмін повідомленнями між агентами та незалежні запуски окремих агентів
.
Результати однозначно підтвердили правильність архітектури. Необмежений обмін миттєво знищив різноманітність доказів. Дослідники спостерігали високий збіг (за індексом Жаккара) між наборами URL-адрес, які відвідували різні агенти. Замість того, щоб розподілити навантаження та охопити більше матеріалу, агенти сходилися на одних і тих самих сторінках, переслідуючи одну ранню зачіпку. Що важливіше, ефективний розмір вибірки (Effective Sample Size, ESS) — показник того, скільки справді незалежних дослідників емулює система — був значно вищим за наявності бар'єру читання. Ізоляція сприяла різноманітній розвідці, яку вільний чат просто зруйнував .
Дизайн ArcticSwarm перетворюється на значний приріст продуктивності. На власному внутрішньому гібридному бенчмарку глибоких досліджень Snowflake ArcticSwarm досяг 64.18% точності порівняно з 47.08% базового рівня для конфігурацій з одним агентом — покращення більш ніж на третину .
Результати на публічних бенчмарках ще більш вражаючі. На повному наборі даних BrowseComp (1,266 запитань) продуктивність сильно залежала від рівня консенсусу, досягнутого під час рецензування :
Для порівняння, на оригінальному бенчмарку BrowseComp стандартні великі мовні моделі (LLM), як-от GPT-4o та GPT-4.5, демонструють точність, близьку до нуля (0.6%–0.9%). Спеціалізована на міркуваннях модель OpenAI o1 покращила результат приблизно до 10%, тоді як OpenAI Deep Research, спеціалізований агент для веб-серфінгу, досяг ~51.5% точності .
На більш контрольованому бенчмарку BrowseComp-Plus найсильніші конкуруючі конфігурації — це GPT-5 у парі з пошуковиком Qwen3-8B, що досягає 70.12% точності, та o3, що досягає 63.49% з тим самим пошуковиком . Результат ArcticSwarm у 86.4% на найскладнішій, двічі верифікованій підмножині BrowseComp-Plus однозначно перевершує ці встановлені базові рівні
.
Ці концепції не обмежуються академічними дослідженнями. Snowflake інтегрує методологію ArcticSwarm, стійку до групового мислення, у свою корпоративну платформу через режим глибокого дослідження Snowflake CoWork (Deep Research Mode) . Ця інтеграція створена для того, щоб працівники розумової праці могли проводити безпечний, високоточний аналіз безпосередньо в керованому середовищі даних Snowflake. Робочий процес підтримується трьома ключовими функціями
:
Для корпоративних користувачів це означає, що здатність ArcticSwarm протистояти упередженню підтвердження може бути застосована до складної комбінації структурованих SQL-запитів до баз даних та неструктурованого перегляду внутрішніх документів. У підсумку це дає відповіді, які пройшли сувору незалежну перехресну перевірку ще до того, як їх побачить людина, що приймає рішення.
Comments
0 comments