MLCommons는 중국의 딥시크(DeepSeek)가 개발한 딥시크-V3 (총 파라미터 6,710억 개, 토큰당 370억 개 활성화) 와 소규모 모델인 GPT-OSS-20B를 새로운 사전 학습 기준으로 추가했다. 이는 기존의 밀집형(Dense) 모델과 달리, 연산 자원을 효율적으로 배분하는 MoE 구조의 확장성을 평가하기 위함이다.
엔비디아는 GB300 NVL72 시스템과 CUDA 그래프, 고급 MoE 라우팅 등 최적화된 소프트웨어 스택을 기반으로 이 두 신규 벤치마크에 모두 결과를 제출한 유일한 플랫폼이 되었다.
특히 딥시크-V3는 멀티 헤드 잠재 어텐션(MLA), 보조 손실 없는 부하 분산, 멀티 토큰 예측 등 최첨단 기술이 집약된 모델로, 동일한 하드웨어라도 소프트웨어 최적화 수준에 따라 성능 차이가 극명하게 벌어진다는 점을 입증했다. 실제로 엔비디아는 단 3개월 만에 소프트웨어 개선만으로 동일 하드웨어 대비 1.3배의 처리량 향상을 이끌어냈다.
기록의 하이라이트는 단연 클라우드 GPU 인프라 기업 코어위브(CoreWeave) 의 제출 결과다.
코어위브는 자사의 상용 클라우드 인프라에서 엔비디아 GB300 NVL72 GPU 8,192개(2,048개 노드) 라는 어마어마한 규모의 클러스터를 가동해, 딥시크-V3 671B 모델을 단 2.02분 만에 학습 완료시켰다. 이는 이번 라운드에 제출된 딥시크-V3 학습 중 가장 빠른 기록이자, 대규모 MoE 모델의 상용 서비스 가능성을 실증한 사례로 평가된다.
일반적으로 수천억 개의 파라미터를 가진 모델을 학습하려면 수개월이 소요된다고 알려져 있지만, 코어위브는 네트워킹, 오케스트레이션, 스토리지 전 계층에 걸친 풀스택 최적화를 통해 이 시간을 믿기 어려운 수준으로 단축했다. 이는 ‘많은 GPU를 단순히 꽂는 것’이 아닌, 어떻게 스케일 아웃(Scale-out) 하느냐가 핵심 경쟁력임을 보여준다.
이번 결과는 엔비디아의 최신 칩인 블랙웰 울트라(Blackwell Ultra, GB300) 의 실질적 성능 향상 폭을 가늠할 수 있는 중요한 데이터 포인트를 제공한다.
동일한 규모에서 비교했을 때, GB300 NVL72는 이전 세대인 GB200 NVL72 대비 최대 1.6배 빠른 학습 속도를 기록했다. 이는 추론 성능 향상폭(최대 2.77배)과 맞물려, 데이터센터의 TCO(총소유비용)를 크게 낮추는 요인으로 작용한다.
이러한 성능 향상의 비결은 더 커진 메모리 용량과 전력 예산을 통해 모델의 지역성을 극대화한 점, 그리고 네트워크 병목 현상을 해소한 스펙트럼-X 이더넷(Spectrum-X Ethernet) 의 역할 덕분이다. MoE 모델은 특정 전문가(Expert)에게 트래픽이 순간적으로 폭증하는 버스티(Bursty) 통신 패턴을 보이는데, 엔비디아의 적응형 라우팅(Adaptive Routing)과 혼잡 제어(Congestion Control) 기술이 패브릭 대역폭을 이론적 한계까지 끌어올렸다.
국내 AI 기업 및 연구소 관점에서 주목할 점은 하드웨어뿐 아니라 소프트웨어의 중요성이 전례 없이 커지고 있다는 사실이다.
이번 결과에서 AMD 인스팅트 MI355X 가속기는 엔비디아 B200 대비 라마 2-70B 미세 조정에서 약 5%, 라마 3.1-8B 사전 학습에서 약 6%의 근소한 차이만을 보이며 추격했다. AMD는 자사의 MXFP4 데이터 타입을 전면에 내세우며, 단순히 GPU 코어 수 경쟁이 아니라 연산 정밀도와 메모리 효율의 최적화 조합이 관건임을 시사했다.
또한 엔비디아가 동일한 하드웨어에서도 CUDA 13.1로의 업그레이드만으로 최대 9%의 처리량 이득을 얻었다는 람다(Lambda)의 사례는, 한국 기업들이 고가의 GPU를 도입하는 것만큼이나 소프트웨어 스택의 성숙도와 지속적인 업데이트에 투자해야 함을 방증한다.
2.02분이라는 학습 기록은 초기 투자 비용을 감수하더라도, 생산 단계에서의 반복적인 실험과 서비스 출시 시간을 극적으로 단축할 수 있는 **‘시간 대비 학습 효율’**이라는 새로운 가치를 한국 AI 업계에 제시하고 있다.
Comments
0 comments