Важно понимать, что UltraSpeed — это не новая архитектура модели, а инженерно-оптимизированный режим обслуживания, надстроенный поверх MiMo-V2.5-Pro. Эта модель использует архитектуру Mixture-of-Experts (MoE) с 1,02 триллиона параметров, из которых 42 миллиарда активны, и обладает контекстным окном в 1 миллион токенов . Для сравнения: это как если бы вы попросили ассистента проанализировать «Войну и мир» целиком, и он бы начал выдавать осмысленный ответ быстрее, чем вы успеваете моргнуть.
Официальная документация Xiaomi описывает полномасштабное совместное проектирование модели и системы (co-design), объединяющее три ключевых техники, которые и позволили преодолеть барьер в 1000 токенов/с .
Инженеры применили квантование до точности FP4, но не ко всей модели, а избирательно — только к слоям экспертов MoE. Остальные компоненты сохранили исходную точность . Квантование с осведомленностью об обучении (QAT) позволяет радикально уменьшить объем модели и снизить нагрузку на пропускную способность памяти без ощутимой потери качества
. Такой подход позволяет избежать деградации чувствительных к точности компонентов, не являющихся экспертами.
На смену традиционному авторегрессионному методу пришел DFlash — механизм блочного параллельного предсказания с маскированием . Черновая модель использует внимание со скользящим окном (SWA), чтобы стоимость предсказания оставалась почти постоянной и не росла с длиной последовательности
. Для повышения процента принятия токенов применяются оптимизатор Muon и самодистилляция, что напрямую конвертируется в рост пропускной способности инференса
. В задачах, связанных с кодом, средняя принятая длина составляет около 6,30 токена за шаг верификации
.
Система TileRT отказалась от классической модели запуска отдельных операторов (per-operator kernel launch) в пользу персистентного ядерного движка, где вычислительный конвейер постоянно находится на GPU . Полноконвейерная предвыборка данных позволяет максимально перекрывать перемещение данных и вычисления, сводя к минимуму простои GPU
. Кроме того, задачи коммуникации, перемещения данных и тензорных вычислений распределены по разным аппаратным потокам (warps), превращая GPU в непрерывно текущую, гетерогенную систему исполнения
.
Цены на входные токены также умножены на 3: попадание в кэш стоит 0,0108 долл./млн, промах мимо кэша — 1,305 долл./млн . Маркетинговый слоган кампании: «В 3 раза выше цена — в 10 раз лучше опыт», что отражает примерно десятикратный выигрыш в скорости при трехкратном увеличении стоимости токена
.
Пробный период UltraSpeed четко ограничен по времени: с 9 по 23 июня 2026 года (до 23:59) . Доступ осуществляется по заявкам, так как высокоскоростные ресурсы инференса ограничены. Приоритет отдается корпоративным пользователям и профессиональным разработчикам
.
Одобренные пользователи получают бесплатный чат-доступ на двухнедельное окно, но с рядом ограничений для соблюдения принципов справедливого использования: не более 10 успешных постановок в очередь на аккаунт в день, лимит сессии 30 минут и автоматическое освобождение ресурсов после 5 минут бездействия . Xiaomi не гарантирует ни скорость рассмотрения заявок, ни процент одобрения
.
Базовая модель MiMo-V2.5-Pro-FP4-DFlash была выложена в открытый доступ одновременно с анонсом UltraSpeed . VP4-квантованные веса и чекпоинты DFlash доступны на HuggingFace, что полностью соответствует заявленной документацией архитектуре, где FP4 и DFlash являются ключевыми компонентами системы
.
Режим UltraSpeed наглядно доказывает: инференс моделей масштаба триллиона параметров на интерактивных скоростях возможен на стандартной инфраструктуре, без необходимости в специализированных чипах. Это серьезное отступление от привычного в индустрии подхода с опорой на уникальное «железо» . Для разработчиков, создающих требовательные к задержкам агентные приложения, пайплайны вызова инструментов или системы генерации кода в реальном времени, сочетание высокой пропускной способности и контекстного окна в 1 миллион токенов открывает практический путь к более быстрым и мощным продуктивным системам. Правда, при условии, что они успеют получить доступ в рамках ограниченного пробного окна.
Comments
0 comments