כדי לבחון האם גישת הבידוד אכן עובדת, ערכה Snowflake מחקר אבלציה (Ablation Study) על תת-מדגם של 120 שאלות מתוך מאגר BrowseComp . שלוש תצורות נוסו: לוח המודעות המבוקר, שליחת הודעות חופשית לחלוטין בין סוכנים, והרצות עצמאיות של סוכן יחיד. התוצאות הראו באופן חד-משמעי שהתקשורת חופשית גרמה באופן מיידי לקריסת מגוון הראיות. החוקרים תיעדו חפיפה גבוהה (Jaccard overlap) בין קבוצות כתובות ה-URL שהסוכנים השונים אספו – במקום לכסות שטח מחקר נרחב יותר, הם התכנסו כולם לאותם עמודים בחיפוש אחר אותו כיוון מוקדם. באופן קריטי יותר, גודל המדגם האפקטיבי (Effective Sample Size, ESS) – מדד המייצג את מספר "החוקרים" הנפרדים מבחינה הסתברותית – היה גבוה משמעותית כאשר חסם הקריאה היה פעיל. הבידוד אילץ את הסוכנים לבצע חקירה מגוונת, דבר שהתקשורת החופשית הרסה לחלוטין
.
העיצוב הארכיטקטוני של ArcticSwarm מתורגם לזינוק חסר תקדים בביצועים. במבחן מחקר עומק פנימי של Snowflake, הצליחה ArcticSwarm להשיג דיוק של 64.18% לעומת baseline של 47.08% בתצורת סוכן יחיד – שיפור של למעלה משליש .
תוצאותיה במבחנים ציבוריים דרמטיות אף יותר. במאגר BrowseComp המלא (1,266 שאלות), ביצועי ArcticSwarm הראו תלות ברורה ברמת ההסכמה שהושגה בשלב הבחינה :
לשם השוואה, במאגר BrowseComp המקורי, מודלי שפה סטנדרטיים (LLMs) כמו GPT-4o ו-GPT-4.5 הציגו דיוק אפסי (0.6%–0.9%). המודל o1 של OpenAI, המתמחה ביכולות הסקה, הצליח להשתפר לכ-10%, בעוד שסוכן הגלישה הייעודי OpenAI Deep Research הגיע לדיוק של כ-51.5% .
במבחן המבוקר יותר BrowseComp-Plus, התצורה המתחרה החזקה ביותר היא GPT-5 בתוספת Qwen3-8B, שהגיעה לדיוק של 70.12%. תוצאת 86.4% של ArcticSwarm על תת-המדגם שעבר אימות כפול עולה בפער ניכר על ביצועים אלו .
הקונספטים הללו אינם נשארים רק במעבדת המחקר. Snowflake מטמיעה כעת את המתודולוגיה העמידה ל"חשיבת-עדר" של ArcticSwarm בפלטפורמה הארגונית שלה, דרך מצב Deep Research במוצר Snowflake CoWork . שילוב זה מיועד לאפשר לעובדי ידע להפעיל ניתוחי עומק מאובטחים ובעלי רמת ביטחון גבוהה ישירות בתוך סביבת הנתונים המבוקרת של Snowflake
. תהליך העבודה נתמך על ידי שלושה רכיבי מפתח:
עבור משתמשים ארגוניים, משמעות הדבר היא שהיכולת של ArcticSwarm להתנגד להטיית אישוש (confirmation bias) יכולה להיות מיושמת על השילוב הסבוך של שאילתות מול בסיסי נתונים מובנים (SQL) לצד סיורים במאגרי מידע פנימיים בלתי מובנים. התוצאה היא תשובות ששרדו תהליך קפדני של אימות צולב עצמאי, עוד בטרם הן מוצגות בפני מקבל ההחלטות האנושי.
Comments
0 comments