For at teste om denne isolationstilgang rent faktisk virkede, udførte Snowflake et ablationsstudie på et deldatasæt med 120 spørgsmål fra BrowseComp-benchmarken . Tre konfigurationer blev testet: den lukkede opslagstavle, fuldstændig uhæmmet peer-to-peer-beskedudveksling og uafhængige enkeltagent-kørsler
.
Resultaterne validerede arkitekturen med al tydelighed. Uhæmmet peer-to-peer-beskedudveksling fik øjeblikkeligt datadiversiteten til at kollapse. Teamet observerede et højt Jaccard-overlap mellem de URL-sæt, de forskellige agenter hentede. I stedet for at opdele researcharbejdet for at dække mere territorium, konvergerede agenterne mod de samme sider, jagende det samme tidlige spor. Endnu mere kritisk var Effective Sample Size (ESS) – et mål for, hvor mange reelt adskilte undersøgere systemet emulerer – signifikant højere med læsebarrieren på plads. Isolationen tvang en varieret udforskning frem, som fri chat ødelagde .
ArcticSwarms design udmønter sig i massive præstationsgevinster. På Snowflakes egen interne, hybride deep research-benchmark opnåede ArcticSwarm en nøjagtighed på 64,18% sammenlignet med en baseline på 47,08% for enkeltagent-konfigurationer – en forbedring på over en tredjedel .
Dets resultater på offentlige benchmarks er endnu mere slående. På det fulde BrowseComp-datasæt (1.266 spørgsmål) var præstationen stærkt stratificeret baseret på, hvor meget konsensus der blev opnået under gennemgangen :
Til sammenligning opnår standard-LLM'er som GPT-4o og GPT-4.5 en nær-nul nøjagtighed (0,6%–0,9%) på den originale BrowseComp-benchmark. OpenAIs ræsonnementspecialiserede o1-model forbedrede sig til omkring 10%, mens OpenAI Deep Research, en specialiseret browsing-agent, nåede ca. 51,5% nøjagtighed .
På den mere kontrollerede BrowseComp-Plus-benchmark er de stærkeste konkurrerende konfigurationer GPT-5 parret med en Qwen3-8B-retriever, der når 70,12% nøjagtighed, og o3, der når 63,49% med den samme retriever . ArcticSwarms 86,4% på den sværeste, dobbeltverificerede del af BrowseComp-Plus overgår klart disse etablerede baselines
.
Disse koncepter er ikke begrænset til akademisk forskning. Snowflake er nu i gang med at integrere ArcticSwarms gruppetænkningsresistente metode i sin virksomhedsplatform gennem Snowflake CoWorks Deep Research Mode . Denne integration er designet til at lade vidensarbejdere køre sikre analyser med høj troværdighed direkte i Snowflakes styrede datamiljø. Arbejdsgangen understøttes af tre nøglefunktioner
:
For virksomhedsbrugere betyder dette, at ArcticSwarms evne til at modstå bekræftelsesbias kan anvendes på den rodede kombination af strukturerede SQL-databaseforespørgsler og browsing i ustrukturerede, interne dokumenter. Dermed leveres svar, der har overlevet et rigoristisk, uafhængigt krydstjek, før de overhovedet præsenteres for en menneskelig beslutningstager.
Comments
0 comments