यह परीक्षण करने के लिए कि क्या यह आइसोलेशनवादी दृष्टिकोण वास्तव में काम करता है, स्नोफ्लेक ने ब्राउज़कॉम्प बेंचमार्क के 120-प्रश्नों के उपसमूह पर एक एब्लेशन अध्ययन किया । तीन व्यवस्थाओं का परीक्षण किया गया: गेटेड BBS, पूरी तरह से अप्रतिबंधित पीयर-टू-पीयर मैसेजिंग, और स्वतंत्र सिंगल-एजेंट रन
।
परिणामों ने इस आर्किटेक्चर को स्पष्ट रूप से मान्य किया। अप्रतिबंधित पीयर-टू-पीयर मैसेजिंग ने साक्ष्य विविधता को तुरंत ध्वस्त कर दिया। टीम ने देखा कि विभिन्न एजेंटों द्वारा लाए गए URL के सेट के बीच उच्च जैकार्ड ओवरलैप था। शोध का बोझ बांटकर अधिक क्षेत्र कवर करने के बजाय, एजेंट एक ही शुरुआती सुराग का पीछा करते हुए एक ही पृष्ठों पर एकत्रित हो गए। इससे भी अधिक महत्वपूर्ण, प्रभावी नमूना आकार (ESS) - यह माप कि सिस्टम कितने वास्तविक रूप से विशिष्ट जांचकर्ताओं का अनुकरण करता है - रीड-बैरियर के साथ काफी अधिक था। आइसोलेशन ने विविध अन्वेषण को मजबूर किया जिसे मुक्त बातचीत ने नष्ट कर दिया ।
आर्कटिकस्वार्म का डिज़ाइन बड़े पैमाने पर प्रदर्शन लाभ में बदल जाता है। स्नोफ्लेक के अपने आंतरिक हाइब्रिड डीप रिसर्च बेंचमार्क पर, आर्कटिकस्वार्म ने सिंगल-एजेंट व्यवस्थाओं के लिए 47.08% की आधार रेखा की तुलना में 64.18% सटीकता हासिल की, जो एक-तिहाई से अधिक का सुधार है ।
सार्वजनिक बेंचमार्क पर इसके परिणाम और भी अधिक चौंकाने वाले हैं। पूर्ण ब्राउज़कॉम्प डेटासेट (1,266 प्रश्नों) पर, प्रदर्शन इस बात पर अत्यधिक निर्भर था कि समीक्षा के दौरान कितनी सहमति बनी :
तुलना में, मूल ब्राउज़कॉम्प डेटासेट पर, GPT-4o और GPT-4.5 जैसे मानक LLM लगभग शून्य सटीकता (0.6%–0.9%) प्राप्त करते हैं। OpenAI का तर्क-विशेषज्ञ o1 मॉडल लगभग 10% तक सुधरा, जबकि OpenAI डीप रिसर्च, एक विशेष ब्राउज़िंग एजेंट, ने ~51.5% सटीकता हासिल की ।
अधिक नियंत्रित ब्राउज़कॉम्प-प्लस बेंचमार्क पर, सबसे मजबूत प्रतिस्पर्धी व्यवस्थाएं Qwen3-8B रिट्रीवर के साथ जोड़ी गई GPT-5 हैं, जो 70.12% सटीकता तक पहुंचती है, और समान रिट्रीवर के साथ o3 63.49% तक पहुंचता है । ब्राउज़कॉम्प-प्लस के सबसे कठिन, दोहरे-सत्यापित उपसमूह पर आर्कटिकस्वार्म का 86.4% स्पष्ट रूप से इन स्थापित आधार रेखाओं को पार करता है
।
ये अवधारणाएं केवल अकादमिक शोध तक सीमित नहीं हैं। स्नोफ्लेक अब स्नोफ्लेक कोवर्क के डीप रिसर्च मोड के माध्यम से आर्कटिकस्वार्म की ग्रुपथिंक-प्रतिरोधी कार्यप्रणाली को अपने एंटरप्राइज़ प्लेटफॉर्म में एकीकृत कर रहा है । यह एकीकरण ज्ञान कर्मियों को स्नोफ्लेक के शासित डेटा वातावरण के भीतर सीधे सुरक्षित, उच्च-विश्वसनीयता विश्लेषण चलाने की अनुमति देने के लिए डिज़ाइन किया गया है। वर्कफ़्लो तीन प्रमुख विशेषताओं द्वारा समर्थित है
:
एंटरप्राइज़ उपयोगकर्ताओं के लिए, इसका मतलब है कि आर्कटिकस्वार्म की पुष्टिकरण पूर्वाग्रह (कन्फर्मेशन बायस) का विरोध करने की क्षमता को संरचित SQL डेटाबेस प्रश्नों और असंरचित आंतरिक दस्तावेज़ ब्राउज़िंग के जटिल संयोजन पर लागू किया जा सकता है, जो ऐसे उत्तर प्रदान करता है जो किसी मानवीय निर्णयकर्ता के सामने प्रस्तुत किए जाने से पहले एक कठोर, स्वतंत्र जांच-पड़ताल से बचकर निकले हों।
Comments
0 comments