เพื่อพิสูจน์ว่าการบังคับแยกอิสระได้ผลจริง Snowflake ได้ทำการทดสอบแบบ Ablation Study กับชุดคำถาม 120 ข้อจาก Benchmark ชื่อ BrowseComp โดยเทียบ 3 รูปแบบ คือ ใช้ Gated BBS, ปล่อยให้ Agent แชตหากันฟรี และให้ Agent เดี่ยวทำงานอิสระ
ผลลัพธ์ยืนยันหลักการของ ArcticSwarm ชนิดหน้ามือเป็นหลังมือ การปล่อยให้ Agent คุยกันฟรีทำให้ความหลากหลายของหลักฐานพังทลายทันที ทีมวิจัยพบว่ามีความซ้ำซ้อนของ URL ที่ Agent ไปค้นหามาสูงมาก แทนที่แต่ละตัวจะช่วยกันหาข้อมูลให้ครอบคลุม กลับกลายเป็นทุกคนแห่ไปอ่านหน้าเว็บเดียวกันหมดเพราะเห็นเบาะแสเดียวกันตั้งแต่ต้น
ที่น่าสนใจยิ่งกว่าคือค่า Effective Sample Size (ESS) ซึ่งวัดว่าในระบบมี 'นักสืบอิสระ' ที่คิดไม่เหมือนกันกี่คน ตัวเลขนี้สูงกว่ามากเมื่อใช้การปิดกั้นข้อมูล ยิ่งไปกว่านั้น ในขั้นตอน Review ก็พบว่าเมื่อข้อสรุปได้รับการ VERIFIED จากทั้ง Agent ผู้สร้าง (Builder) และผู้ตรวจสอบเฉพาะทาง (Dedicated Reviewer) พร้อมกัน ความแม่นยำจะสูงถึง 86.4% แต่หากมีแค่ฝั่งใดฝั่งหนึ่งตรวจ ความแม่นยำจะลดลงมาที่ 70.9% และ 66.1% ตามลำดับ ส่วนเคสที่ไม่มีการตรวจสอบเลย แม่นยำร่วงเหลือ 35.3% เท่านั้น
นี่แสดงให้เห็นว่าคุณภาพของขั้นตอนการตรวจสอบก็สำคัญไม่แพ้การแยกอิสระในช่วงแรก
ความอัจฉริยะของ ArcticSwarm แปลงออกมาเป็นคะแนนที่พุ่งกระฉูด จากการวัดภายในของ Snowflake ด้วย Benchmark วิจัยเชิงลึกแบบ Hybrid ArcticSwarm ได้คะแนนความแม่นยำ 64.18% เทียบกับ Single-agent รูปแบบเดิมที่ได้เพียง 47.08% หรือดีขึ้นเกือบ 1 ใน 3 ส่วน
บน Benchmark สาธารณะยิ่งเด่นชัดกว่าเดิม:
แนวคิดเหล่านี้ไม่ได้ถูกเก็บไว้ในห้องแล็บเท่านั้น Snowflake กำลังนำ ArcticSwarm เข้าไปอยู่ในแพลตฟอร์มสำหรับองค์กร ผ่านฟีเจอร์ใหม่ชื่อ Snowflake CoWork's Deep Research Mode ที่จะช่วยให้ “Knowledge Workers” หรือพนักงานที่ต้องใช้ข้อมูลวิเคราะห์ สามารถทำงานวิจัยที่มั่นใจได้สูงบนข้อมูลภายในของบริษัทที่ถูกกำกับดูแลอย่างดี การผสานรวมนี้มาพร้อม 3 ฟีเจอร์สนับสนุน
:
สำหรับผู้ใช้ในองค์กร นี่แปลว่าเราสามารถใช้พลังต้านอคติของ ArcticSwarm รับมือกับข้อมูลกึ่งโครงสร้างทั้งจากการเขียน SQL ค้นในฐานข้อมูล และค้นหาเอกสารภายในที่ไร้โครงสร้างชัดเจน เพื่อให้ได้คำตอบที่ผ่านการตรวจสอบจากเส้นทางอิสระ ก่อนถึงมือคนตัดสินใจ
Comments
0 comments