Für die erste Runde wählte Artificial Analysis das Modell DeepSeek V4 Pro, ein großes Mixture-of-Experts-Modell (MoE), das als repräsentativ für die Klasse modernster KI-Agenten gilt . Die wichtigsten Zahlen:
Diese Benchmark-Ergebnisse sind kein isoliertes Ereignis, sondern Teil einer breit angelegten Kampagne, Blackwell Ultra als die ultimative Plattform für skalierbare agentenbasierte KI zu etablieren:
Den 20-fachen Effizienzsprung führt Nvidia auf ein extremes Co-Design zurück. Die NVLink-Scale-up-Fabric verbindet 72 GPUs zu einem einheitlichen Gefüge. CUDA-Kernels überlappen Kommunikation und Berechnung speziell für MoE-Modelle. Und TensorRT-LLM-Optimierungen wie WideEP/DeepEP, DeepGEMM und fused MoE sorgen dafür, dass die Effizienz auch bei wachsender Anzahl gleichzeitiger Agentensitzungen stabil bleibt .
AgentPerf ist nur der jüngste Baustein. Nvidia hatte bereits mit Blackwell Ultra in MLPerf Inference v5.1 Rekorde aufgestellt – unter anderem 1,4x höherer Durchsatz bei DeepSeek-R1 gegenüber der ersten Blackwell-Generation . In MLPerf Training v5.1 fegte das Unternehmen über alle sieben Benchmarks hinweg und erzielte die schnellsten Trainingszeiten
. Mit dem agentenbasierten Workload ergänzt Nvidia nun die dritte Dimension in seiner Benchmark-Strategie.
Nvidia belässt es nicht bei theoretischen Ergebnissen. Der Blog-Beitrag nennt explizit Partner, die bereits produktiv agentenbasierte Workloads auf Blackwell betreiben: Together AI, das die Coding-Agenten von Cursor betreibt, und DeepInfra, das die KI-Belegschaft von Pam.ai hostet. Das Signal: Die Hardware ist nicht nur benchmarkstark, sondern auch in echten, geschäftskritischen Umgebungen einsatzbereit .
Der Blog wirft zudem einen Blick auf die nächste Generation: Die Vera-Rubin-Architektur befinde sich bereits in der Produktion. Mit prognostizierten 50 PFLOPs an NVFP4-Rechenleistung und verbesserten Fähigkeiten zur Beschleunigung von LLM-Toolaufrufen soll sie die Kapazitäten für agentenbasierte KI weiter steigern
.
Die AgentPerf-Ergebnisse markieren einen Wendepunkt in der Wahrnehmung von KI-Leistung. Wo bisher die reine Anzahl verarbeiteter Tokens im Vordergrund stand, rückt nun die Fähigkeit einer Infrastruktur in den Fokus, komplexe, mehrstufige Denk- und Werkzeugnutzungsprozesse zu orchestrieren. Für Unternehmen, die KI-Agenten in ihre Produkte integrieren – sei es als Coding-Assistenten, Service-Automatisierungen oder Analyse-Tools –, wird ein Benchmark wie AgentPerf weitaus aussagekräftiger sein als traditionelle Metriken.
Nvidias Vorsprung von Faktor 20 unterstreicht, wie sehr fortschrittliche Hardware-Software-Co-Optimierung in diesem neuen Paradigma den Unterschied macht. Und die Ankündigung, dass Vera Rubin bereits in Produktion geht, lässt erahnen, dass das Rennen um die effizienteste Infrastruktur für agentenbasierte KI gerade erst beginnt.
Comments
0 comments