Para testar se essa abordagem isolacionista realmente funcionava, a Snowflake conduziu um estudo de ablação em um subconjunto de 120 perguntas do benchmark BrowseComp . Três configurações foram testadas: o Quadro de Avisos Controlado, mensagens ponto a ponto completamente irrestritas e execuções independentes de um único agente
.
Os resultados validaram a arquitetura de forma contundente. A comunicação ponto a ponto irrestrita colapsou imediatamente a diversidade de evidências. A equipe observou uma alta sobreposição de Jaccard entre os conjuntos de URLs buscados por diferentes agentes. Em vez de dividir a carga de pesquisa para cobrir mais terreno, os agentes convergiram para as mesmas páginas, perseguindo a mesma pista inicial. Mais criticamente, o Tamanho Efetivo da Amostra (ESS) — uma medida de quantos investigadores genuinamente distintos o sistema emula — foi significativamente maior com a barreira de leitura implementada. O isolamento forçou uma exploração diversa que a comunicação livre destruiu .
O design do ArcticSwarm se traduz em ganhos massivos de desempenho. No próprio benchmark híbrido de pesquisa avançada da Snowflake, o ArcticSwarm atingiu 64,18% de precisão, em comparação com uma linha de base de 47,08% para configurações de agente único, uma melhoria de mais de um terço .
Seus resultados em benchmarks públicos são ainda mais impressionantes. No conjunto de dados completo do BrowseComp (1.266 perguntas), o desempenho foi altamente estratificado com base em quanto consenso foi alcançado durante a revisão :
Em comparação, no conjunto de dados BrowseComp original, LLMs padrão como GPT-4o e GPT-4.5 alcançam precisão quase zero (0,6%–0,9%). O modelo especializado em raciocínio da OpenAI, o1, melhorou para cerca de 10%, enquanto o Deep Research da OpenAI, um agente de navegação especializado, atingiu aproximadamente 51,5% de precisão .
No benchmark mais controlado BrowseComp-Plus, as configurações concorrentes mais fortes são o GPT-5 pareado com um recuperador Qwen3-8B, atingindo 70,12% de precisão, e o o3 atingindo 63,49% com o mesmo recuperador . Os 86,4% do ArcticSwarm no subconjunto mais difícil e com dupla verificação do BrowseComp-Plus claramente excedem essas linhas de base estabelecidas
.
Esses conceitos não estão confinados à pesquisa acadêmica. A Snowflake está agora integrando a metodologia anti-pensamento de grupo do ArcticSwarm em sua plataforma corporativa através do Modo de Pesquisa Avançada do Snowflake CoWork . Essa integração é projetada para permitir que trabalhadores do conhecimento executem análises seguras e de alta confiança diretamente dentro do ambiente de dados governado da Snowflake. O fluxo de trabalho é suportado por três recursos principais
:
Para usuários corporativos, isso significa que a capacidade do ArcticSwarm de resistir ao viés de confirmação pode ser aplicada à combinação complexa de consultas SQL estruturadas em bancos de dados e navegação em documentos internos não estruturados, entregando respostas que sobreviveram a uma verificação cruzada rigorosa e independente antes mesmo de serem apresentadas a um tomador de decisão humano.
Comments
0 comments