Aby Snowflake otestoval, zda tento izolacionistický přístup skutečně funguje, provedl ablační studii na podmnožině 120 otázek z benchmarku BrowseComp . Testovaly se tři konfigurace: hlídaná nástěnka, zcela neomezené zasílání zpráv mezi agenty a nezávislé jednoagentové běhy
.
Výsledky architekturu jasně potvrdily. Neomezené zasílání zpráv okamžitě zničilo rozmanitost důkazů. Tým pozoroval vysokou míru překryvu (Jaccardův index) mezi sadami URL adres, které jednotliví agenti stáhli. Namísto toho, aby si agenti rozdělili práci a pokryli tak širší oblast, sbíhali se ke stejným stránkám a hnali se za stejnou první stopou. Ještě kritičtější bylo zjištění, že Efektivní velikost vzorku (ESS) – metrika, kolik skutečně nezávislých výzkumníků systém emuluje – byla výrazně vyšší, když byla čtecí bariéra na místě. Izolace vynutila rozmanité zkoumání, které volná komunikace zničila .
Návrh ArcticSwarm se promítá do masivního nárůstu výkonu. Na interním hybridním benchmarku hlubokého výzkumu Snowflake dosáhl ArcticSwarm přesnosti 64,18 % ve srovnání s 47,08 % u jednoagentové konfigurace, což je zlepšení o více než třetinu .
Ještě výraznější jsou výsledky na veřejných benchmarcích. V celém datasetu BrowseComp (1 266 otázek) byl výkon silně stratifikován podle toho, jaké úrovně konsensu bylo dosaženo během kontroly :
To ukazuje, že kvalita následné fáze kontroly je stejně zásadní jako prvotní izolace.
Pro srovnání, na původním datasetu BrowseComp dosahovaly standardní velké jazykové modely jako GPT-4o a GPT-4.5 přesnosti blízké nule (0,6–0,9 %). Specializovaný model OpenAI o1 se zlepšil na přibližně 10 %, zatímco OpenAI Deep Research, specializovaný prohlížecí agent, dosáhl přesnosti ~51,5 % .
Na více kontrolovaném benchmarku BrowseComp-Plus dosahují nejsilnější konkurenční konfigurace přesnosti 70,12 % (GPT-5 s vyhledávačem Qwen3-8B) a 63,49 % (model o3 se stejným vyhledávačem) . ArcticSwarm se svými 86,4 % v nejtěžší, duálně ověřené podmnožině BrowseComp-Plus tyto zavedené laťky jasně překonává
.
Tyto koncepty nezůstávají jen u akademického výzkumu. Snowflake nyní integruje metodiku ArcticSwarm odolnou vůči skupinovému myšlení do své firemní platformy prostřednictvím režimu hlubokého výzkumu Snowflake CoWork . Tato integrace umožňuje znalostním pracovníkům spouštět bezpečnou a vysoce důvěryhodnou analýzu přímo v řízeném datovém prostředí Snowflake. Pracovní postup podporují tři klíčové funkce
:
Pro firemní uživatele to znamená, že schopnost ArcticSwarm odolat konfirmačnímu zkreslení může být aplikována na nepřehlednou kombinaci strukturovaných SQL dotazů do databází a prohledávání nestrukturovaných interních dokumentů. Výsledkem jsou odpovědi, které přežily důkladnou, nezávislou křížovou kontrolu ještě předtím, než jsou vůbec předloženy lidskému rozhodovateli.
Comments
0 comments