Zyphra의 확산 방식은 이 디코딩 과정을 바꾼다.
과정은 대략 다음과 같다.
이 방식의 핵심 장점은 여러 토큰이 동일한 prefix와 KV 캐시 상태를 공유한다는 것이다. 덕분에 모델은 단일 forward pass에서 여러 토큰을 병렬 계산할 수 있다.
Zyphra가 공개한 속도 향상 수치는 샘플링 전략에 따라 달라진다.
Lossless 샘플러
Logit‑mixing 샘플러
현재 성능 수치는 대부분 Zyphra의 자체 실험 결과이기 때문에 실제 서비스 환경에서 동일한 성능이 나오는지는 독립적인 벤치마크 검증이 필요하다.
이 프로젝트의 또 다른 특징은 하드웨어 생태계다.
이는 단순한 기술적 선택 이상의 의미가 있다.
AI 인프라 시장에서는 이러한 경쟁이 비용 구조에도 영향을 줄 수 있다.
이 구조의 목표는 어텐션 연산 비용을 줄이는 것이다. 특히 확산 방식에서는 여러 토큰을 동시에 계산하는 과정이 대규모 prefill 연산과 유사해지기 때문에, 어텐션 효율이 전체 속도에 큰 영향을 준다.
즉,
이 두 요소가 결합되면서 전체 추론 속도 개선이 가능해진다.
이 기술이 실제 서비스 환경에서 동일하게 작동한다면, AI 서비스 비용 구조에도 영향을 줄 수 있다.
추론 속도가 빨라지면 다음과 같은 효과가 가능하다.
다만 Zyphra 역시 확산 기반 LLM 추론 스택은 아직 기존 자기회귀 스택만큼 최적화되지 않았다고 설명한다. 따라서 실제 운영 환경에서의 이득은 워크로드에 따라 달라질 수 있다.
최근 대형 추론 모델은 강화학습(RL) 기반 학습을 많이 사용한다.
이 방식에서는 모델이 하나의 질문에 대해 여러 개의 후보 답변을 생성하고 평가하는 롤아웃(rollout) 과정이 필요하다.
생성 속도가 빨라지면 다음과 같은 효과가 있다.
실제로 RL 기반 모델 개발에서는 추론 비용이 전체 학습 비용의 상당 부분을 차지하는 경우가 많다.
ZAYA1‑8B‑Diffusion‑Preview는 AI 개발의 또 다른 흐름을 보여준다.
최근 연구는 단순히 모델 크기를 키우는 것보다 **"달러당 지능(intelligence per dollar)"**을 높이는 방향으로 이동하고 있다.
이 모델이 결합한 전략은 다음과 같다.
Comments
0 comments