Problém je v tom, že tato KV cache je nenasytný paměťový žrout. S každým novým tokenem bobtná a tiše spotřebovává gigabajty RAM nebo VRAM. Podle Tetheru si pro model se 4 miliardami parametrů pracující s přibližně 262 000 tokeny – což může být hodinový chat nebo celý zdrojový kód – samotná KV cache ukousne zhruba 8 GB paměti. Spusťte čtyři takové seance najednou a rázem se díváte na více než 32 GB paměti, ještě předtím, než vůbec nahrajete samotný model .
Tento explozivní nárůst paměti je hlavním důvodem, proč úlohy s dlouhým kontextem – jako je analýza právního dokumentu, shrnutí podcastu nebo programování se skutečně kontextově uvědomělým asistentem – byly dosud převážně vězněm centralizované cloudové infrastruktury s řadami vysoko-paměťových GPU .
TurboQuant se s tímto problémem vypořádává pomocí techniky zvané agresivní kvantizace KV cache. Princip je podobný kompresi obrázku: vymění trochu teoretické numerické přesnosti za obrovské praktické zisky v paměťové efektivitě .
Funguje to následovně:
Open-source vydání od Tetheru není jen teoretický článek. Je to praktický balíček, který obsahuje kompletní kvantizační pipeline, adaptéry pro běžné inferenční frameworky a profily nasazení vyladěné pro různé pracovní zátěže, takže je připraven k zapojení do projektů vývojářů .
Skutečný význam TurboQuantu se vyjasní, když se podíváte, kde sídlí: uvnitř QVAC Fabric, základního LLM běhového prostředí Tether QVAC SDK . QVAC, což je zkratka pro iniciativu „Suverénní mysl“ (Sovereign Mind), je open-source, multiplatformní SDK od Tetheru pro budování lokální, decentralizované AI
. Spojuje schopnosti jako LLM dokončování, rozpoznávání řeči, překlad, OCR, generování obrázků a dolaďování na zařízení za jednotné, unifikované API, které je navrženo tak, aby fungovalo identicky na jakémkoli zařízení nebo operačním systému
.
Odstraněním paměťové zdi KV cache je TurboQuant víc než jen vylepšení výkonu. Je to strategický nástroj pro vizi Tetheru o AI, která běží na osobních zařízeních, lokálních sítích a peer-to-peer infrastruktuře, čímž snižuje závislost světa na hrstce centralizovaných hyperscale cloudů .
Politický rozměr je zde explicitní. Generální ředitel Tetheru Paolo Ardoino zasadil vydání do ostrého kontextu: „Pokud AI s dlouhým kontextem funguje jen uvnitř největších datových center, pak bude AI utvářena tím, kdo vlastní nejvíce hardwaru“ . TurboQuant má být praktickou odpovědí na tuto koncentraci moci.
TurboQuant byl hvězdou vydání 0.12.0, ale nepřišel sám. Aktualizace také významně rozšířila multimodální schopnosti SDK, jak vyplývá z oficiálního oznámení a souvisejícího zpravodajství :
@qvac/sdk Tím, že Tether vydal TurboQuant jako open-source software a přímo jej integroval do QVAC SDK, sází na to, že budoucnost AI bude definována stejně tak místem, kde běží – na vašem zařízení, ve vašich rukou – jako tím, co dokáže.
Comments
0 comments