For å teste om denne tilnærmingen faktisk virket, utførte Snowflake en ablasjonsstudie på et utvalg av 120 spørsmål fra den krevende BrowseComp-benchmarken. Tre oppsett ble testet: den styrte oppslagstavlen, fullstendig åpen peer-to-peer-meldingstjeneste, og uavhengige enkeltagenter .
Resultatene var en sterk validering av arkitekturen. Ubegrenset meldingsutveksling førte til umiddelbar kollaps i bevismangfoldet. Teamet observerte en høy Jaccard-overlapp mellom URL-ene som ble hentet av ulike agenter. I stedet for å fordele arbeidsmengden og dekke mer terreng, konvergerte agentene mot de samme nettsidene og jaget det samme opprinnelige sporet. Enda viktigere var det at den effektive utvalgsstørrelsen (Effective Sample Size – ESS) – et mål på hvor mange genuint unike etterforskere systemet tilsvarer – var betydelig høyere med lesesparren på plass. Isolasjonen tvang frem et mangfold i utforskningen som den frie chatten ødela .
ArcticSwarms design gir massive ytelseshopp. På Snowflakes egen interne benchmark for dyp forskning oppnådde ArcticSwarm 64,18 % nøyaktighet, mot en baseline på 47,08 % for enkeltagenter – en forbedring på over en tredel .
Resultatene på offentlige benchmark-tester er enda mer slående. På hele BrowseComp-datasettet (1266 spørsmål) var ytelsen sterkt avhengig av konsensusnivået oppnådd i vurderingsfasen :
Til sammenligning oppnår standard språkmodeller som GPT-4o og GPT-4.5 nær null i nøyaktighet (0,6–0,9 %) på den originale BrowseComp-testen. OpenAI sin spesialiserte resonneringsmodell o1 forbedret dette til rundt 10 %, mens OpenAI Deep Research, en spesialisert nettleser-agent, nådde rundt 51,5 % nøyaktighet .
På den mer kontrollerte BrowseComp-Plus-benchmarken er de sterkeste konkurrerende oppsettene GPT-5 med en Qwen3-8B-søkemotor, som når 70,12 % nøyaktighet, og o3 med 63,49 % . ArcticSwarms 86,4 % på den aller vanskeligste, dobbeltverifiserte delen av BrowseComp-Plus overgår disse etablerte rekordene klart
.
Disse konseptene forblir ikke på forskningsstadiet. Snowflake integrerer nå ArcticSwarms gruppetenknings-resistente metodikk inn i sin bedriftsplattform gjennom Snowflake CoWorks nye «Deep Research Mode» . Denne integrasjonen lar kunnskapsarbeidere kjøre sikre og pålitelighetsvektede analyser direkte i Snowflakes kontrollerte datamiljø. Arbeidsflyten støttes av tre nøkkelfunksjoner
:
For bedriftsbrukere betyr dette at ArcticSwarms evne til å motstå bekreftelsesfeller kan anvendes på den komplekse blandingen av strukturerte SQL-databasespørringer og ustrukturert intern dokumentlesing. Det gir svar som har bestått en rigorøs, uavhengig kryssjekk før de noen gang presenteres for en menneskelig beslutningstaker.
Comments
0 comments