Большинство современных языковых моделей работает в авторегрессионном режиме. Это означает, что каждый следующий токен зависит от всей уже сгенерированной последовательности.
Типичный цикл выглядит так:
Проблема в том, что такая схема строго последовательная. Параллелизация почти невозможна, а постоянное обращение к KV‑кэшу создаёт узкое место по пропускной способности памяти.
В диффузионной версии Zyphra изменяет сам принцип декодирования.
Вместо предсказания одного токена модель:
Поскольку все кандидаты используют один и тот же префикс и состояние KV‑кэша, вычисления можно выполнить параллельно за один проход модели. В результате нагрузка смещается от медленного последовательного доступа к памяти к параллельным вычислениям, с которыми GPU справляются гораздо лучше.
Производительность зависит от того, какой алгоритм принятия токенов используется.
Lossless‑семплер
Logit‑mixing‑семплер
Стоит учитывать, что эти результаты пока в основном основаны на тестах самой Zyphra. Для окончательных выводов нужны независимые бенчмарки.
Ещё один необычный аспект проекта — используемая аппаратная платформа. Zyphra утверждает, что это первая диффузионная языковая модель, обученная на GPU AMD, а не на инфраструктуре Nvidia, которая доминирует в индустрии ИИ.
Если подобные эксперименты окажутся воспроизводимыми, это может показать, что обучение и запуск крупных моделей не обязательно привязаны к одной экосистеме ускорителей. Для рынка ИИ‑инфраструктуры это потенциально важный сигнал.
В архитектуре ZAYA1‑8B используется механизм Compressed Convolutional Attention (CCA) — способ уменьшить вычислительную стоимость механизма внимания при масштабных параллельных операциях.
Это особенно важно для диффузионной генерации. Когда модель создаёт сразу много токенов, процесс становится похож на массовую стадию prefill, где эффективность внимания напрямую влияет на скорость работы. Более дешёвые операции внимания делают параллельную генерацию практичнее.
Если заявленные ускорения подтвердятся в реальных сервисах, эффект может быть заметным:
Однако сама Zyphra признаёт, что стек инференса для диффузионных LLM пока менее оптимизирован, чем традиционные системы, поэтому реальные показатели могут отличаться от лабораторных.
Многие современные reasoning‑модели обучаются с использованием reinforcement learning, где требуется генерировать большое количество ответов‑кандидатов.
Чем быстрее модель может генерировать текст, тем:
На практике скорость генерации часто является одним из главных расходов в таких тренировочных пайплайнах.
ZAYA1‑8B‑Diffusion‑Preview показывает важную тенденцию в развитии ИИ. Вместо простой гонки за всё большими моделями исследователи всё чаще ищут способы увеличить эффективность — сколько интеллекта получается на единицу вычислений.
В этом проекте объединяются сразу несколько направлений оптимизации:
Если такие методы окажутся стабильными на больших масштабах, они могут заметно изменить подход к разработке LLM — сместив фокус с размера моделей на пропускную способность, стоимость и аппаратную эффективность. Пока же ZAYA1‑8B‑Diffusion‑Preview остаётся важным экспериментом, демонстрирующим, что переход от авторегрессионных моделей к диффузионным декодерам может стать одним из путей ускорения генеративного ИИ.
Comments
0 comments