Il problema è che questa KV cache è un vorace divoratore di memoria. Si gonfia con ogni singolo nuovo token, consumando silenziosamente gigabyte di RAM o VRAM. Secondo Tether, per un modello da 4 miliardi di parametri che lavora con circa 262.000 token—l'equivalente di ore di chat o un'intera codebase—la sola KV cache divora circa 8 GB di memoria. Esegui quattro sessioni di questo tipo contemporaneamente, e ti troverai con oltre 32 GB di memoria usata, prima ancora di caricare il modello stesso .
Questa crescita esplosiva della memoria è la ragione principale per cui i compiti di IA a contesto lungo—come analizzare un documento legale, riassumere un podcast, o programmare con un assistente veramente consapevole del contesto—sono stati in gran parte prigionieri delle infrastrutture cloud centralizzate, con le loro file di GPU ad alta memoria .
TurboQuant affronta questo problema di petto con una tecnica chiamata quantizzazione aggressiva della KV cache. Il concetto è simile alla compressione di un'immagine: sacrifica un pizzico di precisione numerica teorica per ottenere enormi guadagni pratici in efficienza della memoria .
Ecco come funziona:
Il rilascio open source di Tether non è solo un articolo teorico. È un pacchetto pratico che include una pipeline di quantizzazione completa, adattatori per i framework di inferenza più comuni e profili di distribuzione ottimizzati per diversi carichi di lavoro, rendendolo pronto per essere integrato dagli sviluppatori nei loro progetti .
Il vero significato di TurboQuant diventa chiaro quando si guarda a dove risiede: all'interno di QVAC Fabric, il runtime LLM principale del QVAC SDK di Tether . QVAC, che sta per l'iniziativa "Mente Sovrana", è l'SDK open source e multipiattaforma di Tether per costruire IA locale e decentralizzata
. Raggruppa capacità come il completamento LLM, il riconoscimento vocale, la traduzione, l'OCR, la generazione di immagini e il fine-tuning su dispositivo dietro un'unica API unificata, pensata per funzionare in modo identico su qualsiasi dispositivo o sistema operativo
.
Rimuovendo il muro di memoria della KV cache, TurboQuant è più di una semplice ottimizzazione delle prestazioni. È un abilitatore strategico per la visione di Tether di un'IA che funziona su dispositivi personali, reti locali e infrastrutture peer-to-peer, riducendo la dipendenza del mondo da una manciata di cloud iperscalabili e centralizzati .
La politicità di questo approccio è esplicita. L'AD di Tether, Paolo Ardoino, ha inquadrato il rilascio con parole forti: "Se l'IA a contesto lungo funziona solo all'interno dei più grandi data center, allora l'IA sarà plasmata da chiunque possieda più hardware" . TurboQuant è progettato per essere una risposta pratica a questa concentrazione di potere.
TurboQuant è stato il protagonista del rilascio 0.12.0, ma non viaggiava da solo. L'aggiornamento ha anche ampliato le capacità multimodali dell'SDK in modi significativi, sulla base del comunicato ufficiale e della copertura mediatica :
@qvac/sdk Rilasciando TurboQuant come software open source e integrandolo direttamente nel QVAC SDK, Tether sta scommettendo che il futuro dell'IA sarà definito tanto da dove viene eseguita—sul tuo dispositivo, nelle tue mani—quanto da ciò che può fare.
Comments
0 comments