compressed-tensorsZatímco plné 16bitové verze potřebují desítky gigabajtů paměti, QAT 4bitové varianty přinášejí zhruba 72% úsporu . V tabulce uvádíme předpokládanou operační paměť pro 4bitový chod:
QAT je klíčové právě pro 4bitové nasazení, protože běžný převod do Q4_0 by znamenal citelný propad přesnosti. Například u modelu 26B klesla top-1 přesnost po naivním převodu na asi 70,2 %, zatímco oficiální QAT orientované formáty si drží podstatně vyšší kvalitu .
Google zveřejnil několik typů checkpointů: unquantized QAT, GGUF (Q4_0), compressed-tensors a mobilní formát. Pro mobily vznikla speciální směs kvantizačních šířek optimalizovaná pro E2B a E4B, která umožnila stlačit E2B až na přibližně 1 GB . Textová verze bez vkládacích vrstev si podle dokumentace vystačí dokonce s méně než 1 GB
.
Pro inference engine jako vLLM nebo llama.cpp se používají buď oficiální GGUF soubory, nebo formát compressed-tensors s W4A16, který zachovává výhody QAT . Uživatelé by měli pamatovat na to, že volba formátu podstatně ovlivňuje konečnou kvalitu výstupu modelu
.
Nové QAT checkpointy znamenají, že i uživatelé s běžným hardwarem (herní GPU, výkonnější notebooky, moderní telefony) si mohou vyzkoušet modely, které ještě donedávna vyžadovaly serverové nasazení. Klíčem k úspěchu je používat oficiální QAT checkpointy ve formátech, které zachovávají kvalitu natrénovaného modelu .
Comments
0 comments