Bu izolasyoncu yaklaşımın gerçekten işe yarayıp yaramadığını test etmek için Snowflake, BrowseComp testinin 120 soruluk bir alt kümesinde bir ablasyon (etki ölçüm) çalışması yürüttü . Üç farklı yapılandırma test edildi: Kontrollü İlan Tahtası, tamamen serbest ajanlar arası mesajlaşma ve bağımsız tek ajan çalışmaları
.
Sonuçlar, mimarinin ne kadar isabetli olduğunu çarpıcı bir şekilde doğruladı. Sınırsız ajanlar arası mesajlaşma, kanıt çeşitliliğini anında yok etti. Ekip, farklı ajanlar tarafından getirilen URL setleri arasında yüksek bir Jaccard benzerliği gözlemledi. Ajanlar araştırma yükünü bölüp daha fazla alanı taramak yerine, ilk bulunan ipucunun peşinden giderek aynı sayfalara yöneldi. Daha da kritik olarak, sistemin taklit edebildiği gerçekten bağımsız araştırmacı sayısını ölçen Efektif Numune Hacmi (Effective Sample Size - ESS), okuma bariyeri devredeyken çok daha yüksek çıktı. Tecrit modu, serbest sohbetin yok ettiği çeşitliliği zorunlu kıldı .
ArcticSwarm'ın tasarımı, devasa performans artışlarına dönüşüyor. Snowflake'in kendi dahili hibrit derin araştırma kıyaslamasında, ArcticSwarm %64,18 doğruluk oranına ulaşırken, tek ajanlı yapılandırmalar %47,08 temel çizgisinde kaldı; bu üçte birden fazla bir iyileştirme anlamına geliyor .
Herkese açık kıyaslama testlerindeki sonuçlar ise daha da çarpıcı. BrowseComp veri setinin tamamında (1.266 soru), performans, inceleme aşamasında ne kadar fikir birliğine varıldığına bağlı olarak büyük farklılıklar gösterdi :
Karşılaştırma yapmak gerekirse, orijinal BrowseComp veri setinde, GPT-4o ve GPT-4.5 gibi standart büyük dil modelleri (LLM'ler) sıfıra yakın doğruluk oranlarına (%0,6–%0,9) ulaşabiliyor. OpenAI'nin muhakeme odaklı o1 modeli yaklaşık %10'a kadar çıkarken, özel bir tarama ajanı olan OpenAI Deep Research yaklaşık %51,5 doğruluk oranına ulaşmıştı .
Daha kontrollü bir ortam sunan BrowseComp-Plus kıyaslamasında ise en güçlü rakip yapılandırmalar, bir Qwen3-8B alıcı (retriever) ile eşleştirilmiş GPT-5 (%70,12 doğruluk) ve aynı alıcı ile o3 (%63,49 doğruluk) olarak öne çıkıyor . ArcticSwarm'ın BrowseComp-Plus'ın en zorlu, çift taraflı doğrulanmış alt kümesinde aldığı %86,4'lük sonuç, bu yerleşik temel çizgileri açıkça aşıyor
.
Bu kavramlar sadece akademik araştırmalarla sınırlı kalmıyor. Snowflake, ArcticSwarm'ın 'grup düşüncesine' dirençli metodolojisini Snowflake CoWork Derin Araştırma Modu aracılığıyla kurumsal platformuna entegre ediyor . Bu entegrasyon, bilgi çalışanlarının doğrudan Snowflake'in yönetilen veri ortamı içinde güvenli ve yüksek güvenilirlikli analizler yapmasını sağlamak için tasarlandı. İş akışı üç temel özellikle destekleniyor
:
Kurumsal kullanıcılar için bu, ArcticSwarm'ın teyit yanlılığına direnme yeteneğinin, yapılandırılmış SQL veritabanı sorguları ile yapılandırılmamış dahili belge taramalarının karmaşık birleşimine uygulanabileceği anlamına geliyor. Böylece, bir insan karar vericiye sunulmadan önce titiz ve bağımsız bir çapraz kontrolden sağ çıkmış cevaplar elde ediliyor.
Comments
0 comments