Что мне делать дальше на практике?

Если подход подтвердится на практике, он может существенно снизить стоимость инференса и ускорить обучение моделей через reinforcement learning.

studioglobal

← Back to Trending

ОтветыОпубликовано2 месяца назадLast edited в прошлом месяце14 источники

ZAYA1‑8B‑Diffusion‑Preview: как диффузионная LLM ускоряет генерацию текста в несколько раз

Zyphra преобразовала свою MoE‑модель ZAYA1‑8B в диффузионную языковую модель, которая может генерировать блоки из 16 токенов параллельно. Компания сообщает о теоретическом ускорении декодирования: около 4,6× с «lossless»‑семплером и до 7,7× с методом смешивания логитов.

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

← Back to Trending

ОтветыОпубликовано2 месяца назадLast edited в прошлом месяце14 источники

ZAYA1‑8B‑Diffusion‑Preview: как диффузионная LLM ускоряет генерацию текста в несколько раз

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Диффузионный подход к ускорению генерации текста

Стартап Zyphra представил экспериментальную модель ZAYA1‑8B‑Diffusion‑Preview — необычную версию своей языковой модели ZAYA1‑8B. В отличие от большинства современных LLM, она не генерирует текст строго по одному токену за шаг, а использует диффузионный процесс, позволяющий создавать сразу блок из 16 токенов.

По данным разработчиков, такая схема может ускорить декодирование примерно в 4,6 раза при использовании «lossless»‑семплера и до 7,7 раза при методе logit‑mixing, при этом ухудшение качества зависит от выбранной стратегии генерации.

Интересная деталь: модель не обучалась как диффузионная с нуля. Исследователи взяли уже существующий autoregressive‑чекпойнт и преобразовали его в диффузионную архитектуру, показав, что стандартные LLM можно адаптировать к новому режиму генерации.

Базовая модель ZAYA1‑8B

В основе эксперимента лежит ZAYA1‑8B — компактная reasoning‑модель архитектуры mixture‑of‑experts (MoE).

всего чуть больше 8 млрд параметров
во время инференса активируется примерно 760 млн параметров

В MoE‑архитектуре для каждого токена активируется только часть специализированных нейросетевых блоков («экспертов»). Это позволяет поддерживать конкурентное качество при значительно меньших вычислительных затратах по сравнению с плотными моделями аналогичного масштаба.

Почему обычные LLM генерируют медленно

Большинство современных языковых моделей работает в авторегрессионном режиме. Это означает, что каждый следующий токен зависит от всей уже сгенерированной последовательности.

Типичный цикл выглядит так:

модель предсказывает следующий токен
обновляется KV‑кэш
процесс повторяется

Проблема в том, что такая схема строго последовательная. Параллелизация почти невозможна, а постоянное обращение к KV‑кэшу создаёт узкое место по пропускной способности памяти.

Как модель генерирует 16 токенов одновременно

В диффузионной версии Zyphra изменяет сам принцип декодирования.

Вместо предсказания одного токена модель:

генерирует несколько черновых вариантов для блока токенов;
семплер проверяет, какие из них можно принять;
принятые токены добавляются к тексту, после чего процесс повторяется.

В версии Preview размер блока составляет 16 токенов за один шаг диффузии.

Поскольку все кандидаты используют один и тот же префикс и состояние KV‑кэша, вычисления можно выполнить параллельно за один проход модели. В результате нагрузка смещается от медленного последовательного доступа к памяти к параллельным вычислениям, с которыми GPU справляются гораздо лучше.

Два режима семплирования и разная скорость

Производительность зависит от того, какой алгоритм принятия токенов используется.

Lossless‑семплер

работает по принципу, похожему на speculative decoding;
обеспечивает примерно 4,6× ускорение;
рассчитан на сохранение качества без систематического падения метрик.

Logit‑mixing‑семплер

комбинирует вероятности (логиты) диффузионной и авторегрессионной генерации;
увеличивает вероятность принятия токенов;
позволяет достичь до 7,7× ускорения, но возможна небольшая деградация качества.

Стоит учитывать, что эти результаты пока в основном основаны на тестах самой Zyphra. Для окончательных выводов нужны независимые бенчмарки.

Почему важен стек AMD

Ещё один необычный аспект проекта — используемая аппаратная платформа. Zyphra утверждает, что это первая диффузионная языковая модель, обученная на GPU AMD, а не на инфраструктуре Nvidia, которая доминирует в индустрии ИИ.

Если подобные эксперименты окажутся воспроизводимыми, это может показать, что обучение и запуск крупных моделей не обязательно привязаны к одной экосистеме ускорителей. Для рынка ИИ‑инфраструктуры это потенциально важный сигнал.

Compressed Convolutional Attention (CCA)

В архитектуре ZAYA1‑8B используется механизм Compressed Convolutional Attention (CCA) — способ уменьшить вычислительную стоимость механизма внимания при масштабных параллельных операциях.

Это особенно важно для диффузионной генерации. Когда модель создаёт сразу много токенов, процесс становится похож на массовую стадию prefill, где эффективность внимания напрямую влияет на скорость работы. Более дешёвые операции внимания делают параллельную генерацию практичнее.

Что это может изменить в экономике инференса

Если заявленные ускорения подтвердятся в реальных сервисах, эффект может быть заметным:

больше токенов в секунду на один GPU
снижение стоимости генерации
меньшая задержка при длинных ответах

Однако сама Zyphra признаёт, что стек инференса для диффузионных LLM пока менее оптимизирован, чем традиционные системы, поэтому реальные показатели могут отличаться от лабораторных.

Почему это важно для обучения через reinforcement learning

Многие современные reasoning‑модели обучаются с использованием reinforcement learning, где требуется генерировать большое количество ответов‑кандидатов.

Чем быстрее модель может генерировать текст, тем:

дешевле становится RL‑обучение
больше вариантов решения можно попробовать
легче масштабировать эксперименты с test‑time compute

На практике скорость генерации часто является одним из главных расходов в таких тренировочных пайплайнах.

Новый этап гонки за «интеллект на доллар»

ZAYA1‑8B‑Diffusion‑Preview показывает важную тенденцию в развитии ИИ. Вместо простой гонки за всё большими моделями исследователи всё чаще ищут способы увеличить эффективность — сколько интеллекта получается на единицу вычислений.

В этом проекте объединяются сразу несколько направлений оптимизации:

архитектуры mixture‑of‑experts
диффузионная генерация текста
альтернативные механизмы внимания
обучение вне доминирующей Nvidia‑экосистемы

Если такие методы окажутся стабильными на больших масштабах, они могут заметно изменить подход к разработке LLM — сместив фокус с размера моделей на пропускную способность, стоимость и аппаратную эффективность. Пока же ZAYA1‑8B‑Diffusion‑Preview остаётся важным экспериментом, демонстрирующим, что переход от авторегрессионных моделей к диффузионным декодерам может стать одним из путей ускорения генеративного ИИ.

ZAYA1‑8B‑Diffusion‑Preview: как диффузионная LLM ускоряет генерацию текста в несколько раз

ZAYA1‑8B‑Diffusion‑Preview: как диффузионная LLM ускоряет генерацию текста в несколько раз

Диффузионный подход к ускорению генерации текста

Базовая модель ZAYA1‑8B

Почему обычные LLM генерируют медленно

Как модель генерирует 16 токенов одновременно

Два режима семплирования и разная скорость

Почему важен стек AMD

Compressed Convolutional Attention (CCA)

Что это может изменить в экономике инференса

Почему это важно для обучения через reinforcement learning

Новый этап гонки за «интеллект на доллар»

Search, cite, and publish your own answer

Люди также спрашивают

Каков краткий ответ на вопрос «ZAYA1‑8B‑Diffusion‑Preview: как диффузионная LLM ускоряет генерацию текста в несколько раз»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Источники