Tulos on hämmästyttävä: 4-bittiset mallit käyttävät noin 72 % vähemmän muistia, mutta niiden suorituskyky on lähes identtinen alkuperäisen 16-bittisen version kanssa . Viralliset tarkistuspisteet käyttävät W4A16-mallia, jossa painot ovat 4-bittisiä kokonaislukuja ja aktivaatiot 16-bittisiä hyödyntäen
compressed-tensors-formaattia .
Gemma 4 -perhe kattaa viisi eri kokoluokkaa aina ultramobiilista raskaaseen sarjaan . Alla oleva taulukko havainnollistaa, miten dramaattisesti QAT-kvantisointi keventää malleja.
Oikean tiedostomuodon valinta on ratkaisevan tärkeää sekä yhteensopivuuden että suorituskyvyn kannalta. Google tarjoaa useita eri vaihtoehtoja :
Q4_0-muotoon voi romahduttaa tarkkuuden. Esimerkiksi 26B-mallilla saavutettiin näin vain 70.2 % top-1-tarkkuus QAT:n läpimurto avaa ovia, jotka olivat aiemmin tiukasti kiinni.
QAT:n laatuetu on merkittävä juuri 4-bittisessä tarkkuudessa, mutta se ei ole automaattinen. Kuten aiemmin mainittiin, painojen huolimaton muuntaminen standardiin Q4_0-formaattiin voi johtaa laadun romahtamiseen. Kun tavoittelet parasta mahdollista suorituskykyä, suosi virallisia QAT:lle optimoituja pakattuja muotoja .
Comments
0 comments