Để kiểm tra cách tiếp cận 'biệt lập' này có thực sự hiệu quả không, Snowflake đã tiến hành một nghiên cứu cắt bỏ (ablation study) trên một tập con 120 câu hỏi của bài kiểm tra BrowseComp . Ba cấu hình đã được thử nghiệm: Bảng tin có kiểm soát (Gated BBS), nhắn tin ngang hàng không giới hạn, và các lần chạy AI đơn lẻ
.
Kết quả xác nhận một cách rõ ràng kiến trúc này. Nhắn tin ngang hàng không giới hạn ngay lập tức làm sụp đổ sự đa dạng của bằng chứng. Nhóm nghiên cứu đã quan sát thấy sự trùng lặp cao về tập hợp các URL mà các AI khác nhau tìm thấy. Thay vì chia nhau phủ rộng địa bàn, chúng lại cùng hội tụ vào một vài trang giống nhau, đuổi theo một manh mối ban đầu. Quan trọng hơn, Kích thước mẫu hiệu quả (Effective Sample Size - ESS) — thước đo số lượng điều tra viên thực sự độc lập mà hệ thống mô phỏng — cao hơn đáng kể khi có rào cản đọc. Sự cô lập buộc các AI phải khám phá đa dạng, điều mà chat tự do đã phá hủy .
Thiết kế của ArcticSwarm chuyển thành những cải thiện hiệu suất khổng lồ. Trên bài kiểm tra nghiên cứu sâu lai nội bộ của Snowflake, ArcticSwarm đạt độ chính xác 64,18% so với mức nền 47,08% của cấu hình AI đơn lẻ, cải thiện hơn một phần ba .
Kết quả trên các bài kiểm tra công khai còn ấn tượng hơn. Trên toàn bộ tập dữ liệu BrowseComp (1.266 câu hỏi), hiệu suất phân tầng dựa trên mức độ đồng thuận đạt được trong quá trình đánh giá :
Để so sánh, trên tập dữ liệu BrowseComp gốc, các mô hình ngôn ngữ lớn (LLM) tiêu chuẩn như GPT-4o và GPT-4.5 đạt độ chính xác gần bằng 0 (0,6%–0,9%). Mô hình chuyên về suy luận o1 của OpenAI cải thiện lên khoảng 10%, trong khi Deep Research của OpenAI, một tác nhân duyệt web chuyên biệt, đạt độ chính xác ~51,5% .
Trên bài kiểm tra BrowseComp-Plus được kiểm soát chặt chẽ hơn, các cấu hình cạnh tranh mạnh nhất là GPT-5 kết hợp với bộ truy xuất Qwen3-8B, đạt 70,12%, và o3 đạt 63,49% với cùng bộ truy xuất đó . Mức 86,4% của ArcticSwarm trên tập con khó nhất, yêu cầu xác minh kép của BrowseComp-Plus rõ ràng vượt xa các mức nền đã được thiết lập này
.
Những khái niệm này không chỉ giới hạn trong nghiên cứu học thuật. Snowflake đang tích hợp phương pháp chống 'tư duy bầy đàn' của ArcticSwarm vào nền tảng doanh nghiệp của mình thông qua Chế độ Deep Research của Snowflake CoWork . Sự tích hợp này được thiết kế để cho phép nhân viên tri thức chạy các phân tích an toàn, có độ tin cậy cao trực tiếp trong môi trường dữ liệu được quản trị của Snowflake. Quy trình làm việc được hỗ trợ bởi ba tính năng chính
:
Đối với người dùng doanh nghiệp, điều này có nghĩa là khả năng chống lại 'thiên kiến xác nhận' (confirmation bias) của ArcticSwarm có thể được áp dụng cho sự kết hợp phức tạp giữa các truy vấn cơ sở dữ liệu SQL có cấu trúc và duyệt tài liệu nội bộ phi cấu trúc. Kết quả là những câu trả lời đã sống sót qua một cuộc kiểm tra chéo độc lập và nghiêm ngặt trước khi được trình bày cho người ra quyết định.
Comments
0 comments