Problemet er, at denne KV-cache er en veritabel hukommelsessluger. Den vokser eksplosivt med hvert eneste nye ord og sluger i stilhed gigabyte af RAM eller VRAM. Ifølge T ether sluger KV-cachen alene omkring 8 GB hukommelse for en model med 4 milliarder parametre, der arbejder med omkring 262.000 tokens – hvilket kan være timers chat eller en hel kodebase. Kører du fire sådanne sessioner samtidig, står du over for et hukommelsesforbrug på over 32 GB, før du overhovedet har indlæst selve modellen .
Denne eksplosive hukommelsesvækst er hovedårsagen til, at AI-opgaver med lang kontekst – som at analysere et juridisk dokument, opsummere en podcast eller kode med en kontekstbevidst assistent – i høj grad har været fanger i centraliseret cloud-infrastruktur med rækkevis af højtydende grafikkort .
TurboQuant tackler dette problem direkte med en teknik kaldet aggressiv KV-cache-kvantisering. Konceptet ligner komprimering af et billede: du bytter en smule teoretisk numerisk præcision for enorme praktiske gevinster i hukommelseseffektivitet .
Her er, hvordan det fungerer:
T ethers open source-udgivelse er ikke bare en teoretisk afhandling. Det er en praktisk pakke, der inkluderer en fuld kvantiseringspipeline, adaptere til almindelige inferens-frameworks og implementeringsprofiler, der er tunet til forskellige arbejdsbyrder. Det gør den klar til, at udviklere kan sætte den i projektet med det samme .
TurboQuants virkelige betydning træder tydeligt frem, når man ser på, hvor det hører hjemme: inde i QVAC Fabric, som er kerneruntimen for LLM'er i T ethers QVAC SDK . QVAC, der står for "Sovereign Mind"-initiativet, er T ethers open source, platformsuafhængige SDK til at bygge lokalt forankret, decentral AI
. Det samler funktioner som LLM-tekstgenerering, talegenkendelse, oversættelse, OCR, billedgenerering og on-device finjustering bag en samlet API, der er designet til at køre identisk på enhver enhed eller operativsystem
.
Ved at fjerne KV-cachens hukommelsesmur er TurboQuant mere end en ydelsesjustering. Det er en strategisk muliggører for T ethers vision om AI, der kører på personlige enheder, lokale netværk og peer-to-peer-infrastruktur, hvilket reducerer verdens afhængighed af en håndfuld centraliserede, hyper-skala cloud-udbydere .
Det politiske i dette er eksplicit. T ethers administrerende direktør, Paolo Ardoino, formulerede udgivelsen i skarpe vendinger: "Hvis AI med lang kontekst kun virker i de største datacentre, så vil AI blive formet af dem, der ejer mest hardware" . TurboQuant er designet til at være et praktisk svar på den magtkoncentration.
TurboQuant var stjernen i 0.12.0-udgivelsen, men den rejste ikke alene. Opdateringen udvidede også SDK'ens multimodale evner på markante måder, baseret på den officielle udgivelse og den understøttende dækning :
@qvac/sdk-pakken Ved at udgive TurboQuant som open source-software og integrere det direkte i QVAC SDK, satser T ether på, at fremtidens AI i lige så høj grad vil blive defineret af, hvor den kører – på din enhed, i dine hænder – som af, hvad den kan gøre.
Comments
0 comments