Pour vérifier l'efficacité de cette approche isolationniste, Snowflake a mené une étude d'ablation sur un sous-ensemble de 120 questions du banc d'essai BrowseComp . Trois configurations ont été testées : le BBS à accès contrôlé, une messagerie pair-à-pair totalement libre, et des exécutions indépendantes d'agents uniques
.
Les résultats ont clairement validé l'architecture. La messagerie pair-à-pair sans restriction a immédiatement réduit la diversité des preuves. L'équipe a observé un indice de Jaccard élevé entre les ensembles d'URL récupérées par différents agents. Au lieu de se répartir la charge de recherche pour couvrir plus de terrain, les agents ont convergé vers les mêmes pages, suivant la même piste initiale. Plus important encore, la taille effective de l'échantillon (ESS) – une mesure de l'émulation d'enquêteurs véritablement distincts par le système – était significativement plus élevée avec la barrière de lecture en place. L'isolement a imposé une exploration diversifiée que le dialogue libre a détruite .
La conception d'ArcticSwarm se traduit par des gains de performance massifs. Sur le propre banc d'essai hybride de recherche approfondie de Snowflake, ArcticSwarm a atteint une précision de 64,18 %, contre 47,08 % pour les configurations à agent unique, soit une amélioration de plus d'un tiers .
Ses résultats sur les bancs d'essai publics sont encore plus frappants. Sur l'ensemble complet de données BrowseComp (1 266 questions), la performance variait fortement selon le niveau de consensus atteint lors de la revue :
En comparaison, sur le jeu de données BrowseComp original, les LLMs standards comme GPT-4o et GPT-4.5 obtiennent une précision proche de zéro (0,6 %–0,9 %). Le modèle spécialisé en raisonnement d'OpenAI, o1, a atteint environ 10 %, tandis que OpenAI Deep Research, un agent de navigation spécialisé, a atteint une précision d'environ 51,5 % .
Sur le banc d'essai plus contrôlé BrowseComp-Plus, les configurations concurrentes les plus performantes sont GPT-5 couplé à un récupérateur Qwen3-8B (70,12 % de précision) et o3 avec le même récupérateur (63,49 %) . Les 86,4 % d'ArcticSwarm sur le sous-ensemble le plus difficile de BrowseComp-Plus, avec double vérification, dépassent clairement ces références établies
.
Ces concepts ne sont pas confinés à la recherche académique. Snowflake intègre actuellement la méthodologie anti-pensée de groupe d'ArcticSwarm dans sa plateforme d'entreprise via le mode 'Deep Research' de Snowflake CoWork . Cette intégration vise à permettre aux travailleurs du savoir d'exécuter des analyses sécurisées et à haute fiabilité directement dans l'environnement de données gouverné de Snowflake. Le flux de travail s'appuie sur trois fonctionnalités clés
:
Pour les utilisateurs professionnels, cela signifie que la capacité d'ArcticSwarm à résister au biais de confirmation peut être appliquée à la combinaison complexe de requêtes SQL structurées sur des bases de données et de navigation dans des documents internes non structurés. Le système fournit ainsi des réponses qui ont survécu à une contre-vérification indépendante et rigoureuse avant même d'être présentées à un décideur humain.
Comments
0 comments