لاختبار ما إذا كان نهج العزل هذا يعمل حقًا، أجرت Snowflake دراسة إبطال على مجموعة فرعية مكونة من 120 سؤالًا من معيار BrowseComp . تم اختبار ثلاث إعدادات: لوحة الإعلانات المُقيدة، والمراسلة المباشرة غير المقيدة بين الوكلاء، والتشغيل المستقل لوكلاء منفردين
.
أثبتت النتائج صحة هذه الهندسة بشكل صارخ. المراسلة غير المقيدة بين الوكلاء دمرت على الفور تنوع الأدلة. لاحظ الفريق تداخلًا عاليًا (jaccard overlap) بين مجموعات الروابط (URLs) التي جلبها وكلاء مختلفون. بدلاً من تقسيم حمل البحث لتغطية مساحة أوسع، تقارب الوكلاء على نفس الصفحات، مطاردين نفس الخيط المبكر. والأهم من ذلك، كان "حجم العينة الفعال" (Effective Sample Size - ESS) - وهو مقياس لعدد المحققين المستقلين حقًا الذين يحاكيهم النظام - أعلى بكثير مع وجود حاجز القراءة. لقد أجبر العزل على استكشاف متنوع دمره التواصل الحر .
يُترجم تصميم ArcticSwarm إلى مكاسب هائلة في الأداء. في معيار Snowflake الداخلي الهجين للبحث العميق، حقق ArcticSwarm دقة بلغت 64.18% مقارنة بـ 47.08% لخط الأساس للتكوينات أحادية الوكيل، وهو تحسن بأكثر من الثلث .
نتائجه في المعايير العامة أكثر إثارة للدهشة. في مجموعة بيانات BrowseComp الكاملة (1,266 سؤالاً)، تباين الأداء بشكل كبير بناءً على مدى الإجماع الذي تم التوصل إليه أثناء المراجعة :
هذا يوضح أن جودة مرحلة المراجعة اللاحقة لا تقل أهمية عن العزل الأولي.
بالمقارنة، في مجموعة بيانات BrowseComp الأصلية، تحقق نماذج اللغة الكبيرة القياسية مثل GPT-4o و GPT-4.5 دقة قريبة من الصفر (0.6%–0.9%). تحسن نموذج OpenAI o1 المتخصص في الاستدلال إلى حوالي 10%، بينما وصل OpenAI Deep Research، وهو وكيل تصفح متخصص، إلى دقة ~51.5% .
في معيار BrowseComp-Plus الأكثر تحكمًا، أقوى التكوينات المنافسة هي GPT-5 المقترن بمُسترد Qwen3-8B، ويصل إلى دقة 70.12%، و o3 الذي يصل إلى 63.49% بنفس المسترد . دقة ArcticSwarm البالغة 86.4% في المجموعة الفرعية الأصعب والمزدوجة التحقق من BrowseComp-Plus تتجاوز بوضوح خطوط الأساس الراسخة هذه
.
هذه المفاهيم ليست حبيسة البحث الأكاديمي. تقوم Snowflake الآن بدمج منهجية ArcticSwarm المقاومة للتفكير الجماعي في منصتها المؤسسية من خلال وضع البحث العميق (Deep Research Mode) في Snowflake CoWork . صُمم هذا التكامل للسماح لعمال المعرفة بتشغيل تحليلات آمنة وعالية الثقة مباشرة داخل بيئة البيانات الخاضعة للحوكمة في Snowflake. ويدعم سير العمل هذا ثلاث ميزات رئيسية
:
بالنسبة لمستخدمي المؤسسات، هذا يعني أن قدرة ArcticSwarm على مقاومة التحيز التأكيدي (Confirmation Bias) يمكن تطبيقها على المزيج الفوضوي من استعلامات قواعد بيانات SQL المهيكلة وتصفح المستندات الداخلية غير المهيكلة، لتقديم إجابات نجت من تدقيق مستقل صارم قبل أن تُعرض على صانع القرار البشري.
Comments
0 comments