Per capire se questa tatica funzionasse, Snowflake ha condotto uno studio su 120 domande del benchmark BrowseComp, mettendo a confronto tre scenari: la BBS con il blocco, la chat libera tra agenti, e l'esecuzione di agenti singoli indipendenti .
Il risultato è stato netto. La chat libera tra agenti ha fatto immediatamente collassare la diversità delle ricerche. I ricercatori hanno osservato un'alta sovrapposizione tra gli URL visitati dai vari agenti. Invece di dividersi il lavoro e coprire più terreno, tutti convergevano sulle stesse pagine, rincorrendo la prima pista promettente. Il dato cruciale emerso dallo studio è che l'Effective Sample Size (ESS) — che misura quanti investigatori genuinamente diversi il sistema emula — era significativamente più alto quando il blocco era attivo. L'isolamento forzato ha prodotto quell'esplorazione diversificata che la chat libera ha invece distrutto .
Il design di ArcticSwarm si traduce in un vantaggio prestazionale enorme. Sul benchmark di ricerca interna di Snowflake, ArcticSwarm ha raggiunto un'accuratezza del 64,18% contro un misero 47,08% delle configurazioni ad agente singolo, un miglioramento di oltre un terzo .
Sui benchmark pubblici, la performance è stata ancora più impressionante. Sul dataset completo BrowseComp (1.266 domande), l'accuratezza è stata altamente influenzata dal livello di consenso raggiunto durante la revisione :
Questo dimostra che anche la qualità della fase di revisione è cruciale tanto quanto l'isolamento iniziale. Per fare un paragone, sul benchmark BrowseComp originale, modelli standard come GPT-4o e GPT-4.5 hanno un'accuratezza vicina allo zero (0,6%–0,9%). OpenAI o1, specializzato nel ragionamento, è salito a circa il 10%, mentre OpenAI Deep Research, un agente di navigazione specializzato, ha raggiunto un'accuratezza del ~51,5% .
Sul benchmark BrowseComp-Plus, più controllato, le configurazioni più forti in gara sono GPT-5 con il recuperatore Qwen3-8B (70,12% di accuratezza) e o3 (63,49%). L'86,4% di ArcticSwarm sul sottoinsieme più difficile a doppia verifica supera di netto tutti questi risultati .
L'idea non resterà confinata ai laboratori di ricerca. Snowflake sta già integrando la metodologia anti-pensiero di gruppo di ArcticSwarm nella sua piattaforma aziendale tramite la modalità Deep Research di Snowflake CoWork . L'obiettivo è permettere ai lavoratori della conoscenza di eseguire analisi sicure e ad alta affidabilità direttamente sui dati aziendali governati, con tre funzionalità chiave di supporto
:
Per chi lavora in azienda, questo significa che la capacità di ArcticSwarm di resistere al bias di conferma potrà essere applicata a quella combinazione caotica di query SQL su database strutturati e navigazione di documenti interni non strutturati. Il risultato? Risposte che sono già sopravvissute a un rigoroso contraddittorio indipendente prima ancora di essere mostrate a un decisore umano.
Comments
0 comments