För att testa om detta isolerande tillvägagångssätt faktiskt fungerade genomförde Snowflake en ablationsstudie på en delmängd om 120 frågor från BrowseComp-riktmärket . Tre konfigurationer testades: den grindade anslagstavlan, helt obegränsad peer-to-peer-meddelandehantering och oberoende en-agent-körningar
.
Resultaten validerade arkitekturen på ett slående sätt. Obegränsad peer-to-peer-meddelandehantering fick bevisdiversiteten att kollapsa omedelbart. Teamet observerade en hög Jaccard-överlappning mellan de URL-uppsättningar som olika agenter hämtade. Istället för att dela upp forskningsbördan för att täcka mer mark, konvergerade agenterna på samma sidor i jakten på samma tidiga ledtråd. Ännu mer kritiskt var att den effektiva urvalsstorleken (Effective Sample Size, ESS) – ett mått på hur många genuint distinkta utredare systemet emulerar – var signifikant högre med läsbarriären på plats. Isoleringen tvingade fram en mångsidig utforskning som den fria chatten förstörde .
ArcticSwarms design översätts till massiva prestandavinster. På Snowflakes eget interna hybrida djupforskningsriktmärke nådde ArcticSwarm 64,18 % träffsäkerhet jämfört med en 47,08 % baseline för en-agent-konfigurationer – en förbättring på över en tredjedel .
Resultaten på publika riktmärken är ännu mer slående. På det fullständiga BrowseComp-datasetet (1 266 frågor) var prestandan mycket starkt stratifierad baserat på hur mycket konsensus som nåddes under granskningen :
Som jämförelse uppnår standard-LLM:er som GPT-4o och GPT-4.5 en träffsäkerhet nära noll (0,6 %–0,9 %) på det ursprungliga BrowseComp-datasetet. OpenAI:s resonemangsspecialiserade o1-modell förbättrades till cirka 10 %, medan OpenAI Deep Research, en specialiserad surfagent, nådde ~51,5 % träffsäkerhet .
På det mer kontrollerade BrowseComp-Plus-riktmärket är de starkaste konkurrerande konfigurationerna GPT-5 kombinerad med en Qwen3-8B-hämtare, som når 70,12 % träffsäkerhet, samt o3 som når 63,49 % med samma hämtare . ArcticSwarms 86,4 % på den svåraste, dubbelverifierade delmängden av BrowseComp-Plus överträffar klart dessa etablerade baslinjer
.
Dessa koncept är inte begränsade till akademisk forskning. Snowflake integrerar nu ArcticSwarms grupptänkanderesistenta metodik i sin företagsplattform genom Snowflake CoWorks Deep Research-läge . Integrationen är utformad för att låta kunskapsarbetare köra säker analystjänst med hög konfidens direkt inom Snowflakes styrda datamiljö. Arbetsflödet stöds av tre nyckelfunktioner
:
För företagsanvändare innebär detta att ArcticSwarms förmåga att motstå bekräftelsebias kan tillämpas på den röriga kombinationen av strukturerade SQL-databasfrågor och ostrukturerad intern dokumentgranskning, och leverera svar som har genomgått en rigorös, oberoende dubbelkontroll innan de presenteras för en mänsklig beslutsfattare.
Comments
0 comments