Xiaomi та TileRT повідомили про сталу пропускну здатність понад 1000 токенів за секунду, а в демонстраціях пікові значення сягали навіть 1200 токенів/с на стандартному 8-GPU сервері . Це досягнення ламає так званий «неможливий трикутник» індустрії, де швидкість, потужність моделі та використання звичайних GPU раніше вважалися несумісними
. Засновник Xiaomi Лей Цзюнь у своєму дописі назвав це першим в історії випадком, коли трильйонна модель подолала позначку в 1000 токенів/с
.
Важливо розуміти: UltraSpeed — це не абсолютно нова модель, а інженерно оптимізований режим обслуговування для MiMo-V2.5-Pro. Нагадаємо, що MiMo-V2.5-Pro — це архітектура Mixture-of-Experts (суміш експертів) із 1,02 трильйона параметрів, з яких 42 мільярди є активними, та з контекстним вікном на 1 мільйон токенів .
В офіційній документації Xiaomi розкриває комплексний підхід до спільного проєктування моделі та системи (co-design), що об'єднує три ключові техніки для досягнення цієї продуктивності .
Щоб зменшити апетити моделі до пам'яті та пропускної здатності, інженери застосували вибіркове квантування. Лише шари «експертів» (MoE Expert) переводяться в 4-бітну точність (FP4), тоді як решта компонентів моделі залишаються в оригінальній точності . При цьому використовується тренування з усвідомленням квантування (Quantization-Aware Training, QAT), що дозволяє зберегти якість моделі майже без втрат, попри значне стиснення
. Такий підхід гарантує, що найбільш чутливі до точності частини моделі не деградують.
Традиційна autoregressive-генерація текстів — це послідовний процес. DFlash замінює його на блокове масковане паралельне передбачення . Це означає, що спеціальна «чернеткова» (draft) модель генерує одразу кілька варіантів наступних токенів, а основна модель лише швидко їх верифікує. Draft-модель використовує ковзне вікно уваги (Sliding-Window Attention, SWA), що робить витрати на прогнозування майже постійними, не залежно від довжини послідовності
. Для підвищення відсотка прийняття цих токенів (acceptance rate) використовують оптимізатор Muon та само-дистиляцію
. Наприклад, у сценаріях програмування середня довжина прийнятої послідовності сягає 6,30 токена за один крок верифікації
.
На системному рівні TileRT відмовляється від традиційного запуску кожного оператора окремо. Натомість використовується постійний рушій ядер (persistent kernel engine) — обчислювальний конвеєр безперервно «живе» на GPU, не зупиняючись . Повне конвеєрне попереднє завантаження (prefetching) даних дозволяє майже ідеально перекривати передачу даних та власне обчислення, зводячи до мінімуму простої графічного процесора
. Крім того, TileRT розкладає комунікацію, переміщення даних та обчислення тензорів на різні апаратні потоки (warps) з чітко визначеними ролями. Це перетворює GPU на безперервно поточну, гетерогенну систему виконання, де кожен компонент робить свою справу одночасно
.
Xiaomi маркетингово описує новий режим як «3× ціна, 10× досвід» . Дійсно, пробна ціна API для UltraSpeed рівно втричі перевищує вартість стандартного MiMo-V2.5-Pro
:
Ціноутворення на вхідні токени також множиться на 3: при кеш-попаданні (cache hit) ціна становить $0,0108 за мільйон, а при кеш-промаху (cache miss) — $1,305 за мільйон токенів . Таким чином, ви отримуєте приблизно десятикратний приріст швидкості, сплачуючи лише втричі більше.
Доступ до UltraSpeed — це закрите тестування з чіткими часовими рамками: з 9 червня до 23:59 23 червня 2026 року . Через обмежені обчислювальні ресурси, доступ надається за заявками, причому пріоритет віддається корпоративним клієнтам та професійним розробникам з реальними бізнес-потребами
.
Схвалені користувачі отримають безкоштовний чат-досвід на ці два тижні, але з правилами чесного використання: не більше 10 успішних входів у чергу на день, ліміт сесії у 30 хвилин, та автоматичне звільнення ресурсів після 5 хвилин бездіяльності . Xiaomi не гарантує ані швидкості розгляду заявок, ані відсотка схвалення
.
Разом з анонсом режиму UltraSpeed компанія виклала у відкритий доступ базову модель MiMo-V2.5-Pro-FP4-DFlash . FP4-квантовані ваги та чекпоінти (контрольні точки) моделі DFlash доступні на платформі HuggingFace, що підтверджує офіційну документацію, яка називає FP4-квантування та DFlash ключовими компонентами системи
.
Для українського IT-ком'юніті цей анонс є важливим сигналом. Режим UltraSpeed наочно демонструє, що інференс моделей на трильйон параметрів з інтерактивною швидкістю можна запускати на загальнодоступному залізі, без необхідності купувати спеціалізовані чипи, як це роблять деякі інші гравці ринку . Для стартапів та продуктових команд, які працюють над агентними системами (agentic applications), конвеєрами для виклику інструментів або генерацією коду в реальному часі, поєднання величезної пропускної здатності та контекстного вікна в 1 млн токенів відкриває шлях до швидших і потужніших систем — за умови, звісно, що вони встигнуть отримати доступ до цього закритого тестування.
Comments
0 comments