Zyphra преобразовала свою MoE‑модель ZAYA1‑8B в диффузионную языковую модель, которая может генерировать блоки из 16 токенов параллельно.
Zyphra описывает ZAYA1 8B как MoE модель с 8,4 млрд параметров всего и 760 млн активных параметров, ориентированную на рассуждения, математику и код [1][6].
DeepSeek V4 — это не одна «модель на 1 млн токенов», а линейка из V4 Pro и V4 Flash с разными профилями производительности и стоимости.