결과는 충격적이었다. 제약 없는 자유 대화는 증거의 다양성을 즉시 붕괴시켰다. 연구팀은 서로 다른 에이전트들이 수집한 웹페이지(URL) 집합 간의 ‘Jaccard 유사도’가 매우 높아지는 것을 확인했다. 에이전트들이 각자 넓은 범위를 탐색하는 대신, 처음 나온 단서 하나에 매몰되어 똑같은 페이지만 좇고 있었던 것이다 .
더 중요한 점은 ‘유효 표본 크기(Effective Sample Size, ESS)’, 즉 시스템이 실제로 얼마나 많은 독립적인 조사자를 가동하는 것처럼 행동하느냐를 측정한 결과였다. ‘읽기 차단’이 적용된 게시판 환경의 ESS가 자유 대화 환경보다 훨씬 높게 나타났다. 강제된 고립이 자유로운 소통이 파괴한 탐색의 다양성을 보존한 것이다 .
ArcticSwarm의 설계는 실질적인 성능 향상으로 직결됐다. 스노우플레이크가 자체 제작한 하이브리드 딥리서치 벤치마크에서, ArcticSwarm은 64.18%의 정확도를 기록했다. 이는 단일 에이전트 기준 성능인 47.08% 대비 3분의 1 이상 향상된 수치다 .
공개 벤치마크에서의 성과는 더욱 두드러진다. 1,266개의 질문으로 구성된 BrowseComp 전체 데이터셋에서, 검토 과정의 합의 수준에 따른 정확도 차이가 극명하게 드러났다 :
이는 초기 격리(탐색)만큼이나 후속 검토 단계의 질이 결정적으로 중요하다는 사실을 보여준다.
비교 대상은 더욱 흥미롭다. 기존 BrowseComp 데이터셋에서, GPT-4o나 GPT-4.5 같은 표준 LLM은 0.6%~0.9%로 사실상 0점에 가까운 정확도를 보였다. 오픈AI의 추론 특화 모델 o1은 약 10%까지 올라갔지만, 웹 브라우징에 특화된 에이전트인 OpenAI Deep Research조차 약 51.5% 의 정확도를 달성하는 데 그쳤다 .
더 엄격하게 제어된 BrowseComp Plus 벤치마크에서, GPT-5나 o3 같은 최고 수준 모델은 최고 70.12%의 정확도를 보였다. ArcticSwarm이 가장 어려운 조건에서 달성한 86.4% 는 이 확립된 기준선들을 확실히 뛰어넘는 기록이다 .
ArcticSwarm의 집단사고 차단 기술은 단지 연구실의 실험에만 머물지 않는다. 스노우플레이크는 이 기술을 자사의 엔터프라이즈 플랫폼인 Snowflake CoWork의 딥리서치 모드(Deep Research Mode) 에 통합하고 있다 . 이 통합을 통해 지식 노동자들은 스노우플레이크가 관리하는 데이터 환경 안에서 안전하고 신뢰도 높은 분석을 직접 실행할 수 있게 된다. 다음 세 가지 핵심 기능이 이를 뒷받침한다
:
이제 기업 사용자는 구조화된 SQL 데이터베이스 쿼리와 비정형 내부 문서 검색이라는 복잡한 조합에도 ArcticSwarm의 확증 편향 저항 능력을 적용할 수 있게 되었다. 그 결과, 인간 의사 결정권자에게 전달되기 전에 독립적이고 엄격한 교차 검증을 거친 답변을 확보할 수 있다.
Comments
0 comments