답변게시됨19시간 전Last edited 17시간 전26 소스

샤오미 MiMo, 1조 매개변수 모델 범용 GPU로 초당 1000토큰 벽을 깨다

샤오미 MiMo 팀과 타일RT(TileRT)가 2026년 6월, 맞춤형 칩이 아닌 표준 8 GPU 서버 1대만으로 1조 매개변수 모델의 초당 1000토큰 디코딩 속도를 세계 최초로 돌파한 MiMo V2.5 Pro UltraSpeed 모드를 공개했습니다. 이번 기록의 핵심은 세 가지 기술의 결합입니다.

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

12K0

Conceptual visualization of Xiaomi MiMo-V2.5-Pro-UltraSpeed achieving over 1,000 tokens per second on a trillion-parameter model using standard GPUs. — What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved onA conceptual representation of high-speed AI inference on standard GPU hardware.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved on. Article summary: On **June 8, 2026** (with major reports appearing on June 9), Xiaomi's MiMo team, in collaboration with TileRT, announced **MiMo-V2.5-Pro-UltraSpeed** — a new high-speed inference mode for its trillion-parameter flagship. Topic tags: general, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "# Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency. Xiaomi has introduced its MiMo-V2.5 model family, adding multimodal capabilities and advancing its push int" source context "Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency" Reference image 2: visual subje
openai.com

2026년 6월 8일, 샤오미의 MiMo 팀과 추론 파트너사 타일RT(TileRT)는 MiMo-V2.5-Pro 모델군을 위한 고속 추론 모드인 MiMo-V2.5-Pro-UltraSpeed를 공개했습니다 . 이번 발표의 핵심은 하나의 문장으로 요약됩니다. 1조(1T) 매개변수 모델이 초당 1000토큰 이상의 처리 속도를 돌파했다는 것입니다. 특히 이 기록은 맞춤형 반도체가 아닌, 단일 표준 8-GPU 범용 노드에서 달성한 것으로, 업계에 큰 반향을 일으켰습니다 . 샤오미는 이번 성과를 두고 ‘속도, 성능, 범용 GPU 호환성이라는 업계의 불가능한 삼각형을 깼다’고 자평했습니다 . 샤오미 창업자 레이쥔(雷军) CEO도 웨이보를 통해 “1조 매개변수 모델에서 초당 1000토큰 출력을 돌파한 것은 업계 최초”라고 강조했습니다 .

기록의 실체: 1조 매개변수, 초당 1000토큰 시대를 열다

샤오미와 타일RT가 보고한 바에 따르면, MiMo-V2.5-Pro-UltraSpeed는 표준 8-GPU 서버 한 대에서 1조 매개변수 모델을 구동해 지속적으로 초당 1000토큰 이상의 처리량을 기록했으며, 데모에서는 최대 초당 약 1200토큰에 도달하기도 했습니다 . 이는 흔히 대규모 언어 모델의 빠른 추론을 위해 특수 제작된 전용 칩(예: 구글의 TPU 등)을 사용하는 기존 접근 방식에서 벗어나, 시중에서 쉽게 구할 수 있는 는 점에서 의미가 큽니다 .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.