İşte Artificial Analysis şirketinin 12 Haziran 2026'da duyurduğu AA-AgentPerf testinin ilk sonuçları ve bu sonuçların sektör için ne anlama geldiği.
AgentPerf neyi ölçüyor?
AA-AgentPerf, sektördeki ilk açık ve çok tedarikçili donanım testi olma özelliğini taşıyor. Bu testin en önemli farkı, artık hepimizin aşina olduğu tekil soru-cevap (sohbet) performansını değil, yapay zeka ajanlarına özel çıkarım (inference) iş yüklerini ölçmek üzere tasarlanmış olması
.
Basitçe söylemek gerekirse, bir sistemin aynı anda kaç tane kod yazabilen, araç kullanabilen yapay zeka ajanını, belirli bir çıktı hızı (saniyedeki token sayısı) ve ilk yanıt süresi (TTFT) kalitesinden ödün vermeden çalıştırabildiğini ölçüyor. Test, gerçek dünyadaki kodlama ajanlarının hareketlerini (trajectories) 12'den fazla programlama dilindeki açık kaynak depolardan alarak simüle ediyor ve birden fazla LLM çağrısını, araç kullanımını ve giderek büyüyen bağlam pencerelerini zincirleme bir şekilde işliyor. Sonuçlar, hızlandırıcı başına ve megavat (MW) başına normalize edilerek enerji verimliliğini de hesaba katıyor
.
Nvidia'nın aldığı sonuçlar
- Nvidia GB300 NVL72 (Blackwell Ultra), test edilen tüm platformlar arasında en yüksek performansı gösterdi. Testte, günümüzün en yetenekli yapay zeka ajanlarını çalıştıran büyük "karışım-uzman" (mixture-of-experts - MoE) model sınıfını temsil eden DeepSeek V4 Pro modeli kullanıldı
.
- Önceki nesil Nvidia HGX H200 (Hopper) sistemine kıyasla, hem 20 token/s hem de 60 token/s hız seviyelerinde megavat başına 20 kata kadar daha fazla eş zamanlı ajan çalıştırabildi
.
Comments
0 comments