Problemet er at denne KV-cachen er en glupsk minnesluker. Den vokser for hvert eneste nye tegn (token) og sluker lydløst gigabyte med RAM eller VRAM. Ifølge Tether bruker KV-cachen alene omtrent 8 GB minne for en modell med 4 milliarder parametere som jobber med rundt 262 000 tegn – noe som kan tilsvare timesvis med chat eller en hel kodebase. Kjører du fire slike økter samtidig, ser du på over 32 GB minnebruk, før du i det hele tatt har lastet inn selve modellen .
Denne eksplosive minneveksten er hovedgrunnen til at KI-oppgaver med lang kontekst – som å analysere et juridisk dokument, oppsummere en podcast eller kode med en virkelig kontekstbevisst assistent – i stor grad har vært fanger av sentralisert skyinfrastruktur med sine rekker av minnetunge GPU-er .
TurboQuant takler dette problemet direkte med en teknikk kalt aggressiv KV-cache-kvantisering. Konseptet ligner på å komprimere et bilde: det bytter bort en ørliten bit teoretisk numerisk presisjon mot enorme praktiske gevinster i minneeffektivitet .
Slik fungerer det:
Tethers open source-lansering er ikke bare en teoretisk artikkel. Det er en praktisk pakke som inkluderer en full kvantiseringspipeline, adaptere for vanlige inferensrammeverk og distribusjonsprofiler tilpasset ulike arbeidsbelastninger, noe som gjør den klar for utviklere å plugge inn i sine prosjekter .
TurboQuants virkelige betydning blir tydelig når man ser hvor den hører hjemme: inne i QVAC Fabric, kjernekjøringen for språkmodeller i Tethers QVAC SDK . QVAC, som står for "Sovereign Mind"-initiativet, er Tethers open source, plattformuavhengige SDK for å bygge lokal-først, desentralisert KI
. Den samler funksjoner som tekstfullføring, talegjenkjenning, oversettelse, tekstgjenkjenning (OCR), bildegenerering og finjustering på enheten bak et enhetlig API som er ment å kjøre identisk på enhver enhet eller ethvert operativsystem
.
Ved å fjerne KV-cache-minnemuren er TurboQuant mer enn bare en ytelsesjustering. Det er en strategisk muliggjører for Tethers visjon om KI som kjører på personlige enheter, lokale nettverk og peer-to-peer-infrastruktur, noe som reduserer verdens avhengighet av en håndfull sentraliserte, gigantiske skytjenester .
Det politiske aspektet ved dette er eksplisitt. Tethers administrerende direktør, Paolo Ardoino, formulerte lanseringen i klare ordelag: «Hvis KI med lang kontekst bare fungerer innenfor de største datasentrene, vil KI bli formet av den som eier mest maskinvare» . TurboQuant er designet for å være et praktisk svar på denne maktkonsentrasjonen.
TurboQuant var stjernen i 0.12.0-lanseringen, men den kom ikke alene. Oppdateringen utvidet også SDK-ens multimodale evner på betydelige måter, basert på den offisielle lanseringen og støttende dekning :
@qvac/sdk-pakken Ved å lansere TurboQuant som open source-programvare og integrere det direkte i QVAC SDK, vedder Tether på at fremtidens KI vil bli like mye definert av hvor den kjører – på din enhet, i dine hender – som av hva den kan gjøre.
Comments
0 comments