UltraSpeed 모드는 완전히 새로운 모델이 아닌, 샤오미의 기존 주력 모델인 MiMo-V2.5-Pro 위에 구현된 엔지니어링 서빙 모드입니다. MiMo-V2.5-Pro는 총 1.02조 개의 매개변수를 가진 혼합 전문가(MoE) 아키텍처로, 실제 추론 시에는 420억 개의 매개변수만 활성화되며, 한 번에 100만 토큰이라는 긴 문맥을 처리할 수 있습니다 .
샤오미의 공식 문서는 1000토큰/초 이상의 처리 속도를 가능케 한 비결로, 모델과 시스템을 아우르는 풀스택 공동 설계 과정에서 세 가지 핵심 기술이 유기적으로 결합되었다고 설명합니다 .
모델의 모든 부분을 무차별 압축하지 않고, MoE(혼합 전문가) 아키텍처의 ‘전문가 레이어’만을 골라 FP4 정밀도로 양자화했습니다. 나머지 주요 레이어는 원래의 고정밀도를 그대로 유지합니다 . ‘양자화 인식 학습(QAT)’을 통해 모델의 메모리 사용량과 대역폭 부담을 극적으로 줄이면서도, 모델 성능 저하는 거의 느낄 수 없는 수준으로 유지하는 것을 목표로 합니다
. 정밀도 저하에 민감한 비전문가 구성 요소의 품질 저하를 방지하는 전략입니다.
기존의 자동 회귀 방식으로 한 번에 하나씩 토큰을 생성하는 대신, DFlash는 블록 단위의 마스크 병렬 예측을 통해 한 번에 여러 토큰을 추론합니다 . 예측을 위한 초안 모델(Draft Model)에는 슬라이딩 윈도우 어텐션(SWA)을 적용해, 문장이 길어져도 예측에 필요한 컴퓨팅 자원이 기하급수적으로 늘지 않고 거의 일정하게 유지되도록 설계했습니다
. 여기에 Muon 옵티마이저와 자체 증류 기술로 예측 정확도를 높여 추론 처리량을 직접적으로 끌어올렸습니다
. 특히 코딩 작업에서는 검증 단계당 평균 약 6.30개의 토큰을 한 번에 받아들이는 것으로 보고되었습니다
.
타일RT 시스템은 기존의 ‘연산자(Operator)마다 커널을 실행’하는 방식을 버리고, GPU 위에서 연산 파이프라인이 상주하며 끊임없이 데이터를 처리하는 상주 커널 엔진 방식을 도입했습니다 . 전체 파이프라인에 걸친 프리페칭(미리 가져오기)으로 데이터 이동과 연산을 완벽하게 겹쳐 실행해 GPU의 유휴 시간을 획기적으로 줄였습니다
. 또한, 통신, 데이터 이동, 텐서 연산을 각각 다른 워프(Warp)에 전담시키는 이기종 파이프라인 협업을 통해, GPU를 마치 하나의 살아 숨 쉬는 정밀 협업 실행 시스템처럼 진화시켰습니다
.
입력 토큰 가격도 동일하게 3배 적용됩니다. 예를 들어 캐시 적중 시 입력 토큰 100만 개당 $0.0108, 캐시 미적중 시 $1.305입니다 . 샤오미는 이 파격적인 가격 정책을 두고 “3배의 가격으로, 10배의 출력 경험” 이라는 슬로건을 내걸며, 비용 대비 압도적인 속도 향상을 강조했습니다
.
UltraSpeed 체험은 정해진 기간 동안만 신청을 받아 진행됩니다. **2026년 6월 9일부터 23일 오후 11시 59분(중국 시간)**까지가 체험 기간으로, 고속 추론 리소스가 한정되어 있기 때문에 심사를 통과한 사용자만 이용할 수 있습니다 . 특히, 실제 비즈니스 수요가 있는 기업 및 전문 개발자에게 우선권이 부여됩니다
.
심사를 통과하면 2주간 무료 채팅 체험 기회가 주어지며, 공정한 이용을 위해 계정당 하루 최대 10회, 세션당 30분 제한, 그리고 5분간 유휴 상태일 경우 자동으로 자원이 회수되는 규칙이 적용됩니다 . 샤오미는 리소스가 매우 제한적인 관계로, 신청하더라도 심사 시기나 통과 여부를 보장할 수 없다고 밝혔습니다
.
속도뿐만 아니라 접근성까지 고려한 행보도 눈에 띕니다. UltraSpeed 발표와 동시에, 그 기반이 되는 MiMo-V2.5-Pro-FP4-DFlash 모델이 오픈소스로 풀렸습니다 . FP4로 양자화된 가중치와 DFlash 모델 체크포인트가 허깅페이스(HuggingFace)에 공개되어, 누구나 기술의 핵심을 연구하고 자신의 환경에 적용해볼 수 있게 되었습니다. 이는 FP4 양자화와 DFlash 추론 디코딩을 핵심 시스템 구성 요소로 명시한 샤오미의 공식 기술 문서와도 일치하는 행보입니다
.
이번 UltraSpeed 모드의 등장은 대규모 언어 모델의 실시간 추론에 대한 고정관념을 바꾸는 신호탄입니다. 맞춤형 반도체 없이도, 시중에서 구할 수 있는 GPU 인프라만으로 1조 매개변수라는 초거대 모델을 상호작용이 가능한 속도로 구동할 수 있음을 증명했기 때문입니다 .
특히, 응답 지연 시간에 민감한 자율형 에이전트(Agent), 복잡한 도구 호출이 필요한 파이프라인, 실시간 코드 생성 시스템을 구축하는 국내 개발자와 기업에게, 이번 성과는 큰 울림을 줍니다. 100만 토큰이라는 방대한 문맥을 유지하면서도 고속 처리가 가능해져, 더 빠르고 강력한 프로덕션 시스템으로 가는 현실적인 길이 열렸다고 볼 수 있습니다. 다만, 아직은 제한된 체험판 기간이라는 점을 감안해야 할 것입니다.
Comments
0 comments