Ongelmana on, että tämä KV-välimuisti on ahne muistisyöppö. Se paisuu jokaisen uuden sanan myötä ja nielee hiljaisesti gigatavuja RAM- tai VRAM-muistia. Tetherin mukaan 4 miljardin parametrin mallille, joka käsittelee noin 262 000 sanan verran tekstiä – mikä voi tarkoittaa tuntikausien keskustelua tai kokonaista koodipohjaa – pelkkä KV-välimuisti ahmii noin 8 Gt muistia. Aja neljä tällaista sessiota samanaikaisesti, ja muistia kuluu yli 32 Gt ennen kuin itse malli on edes ladattu .
Tämä räjähdysmäinen muistin kasvu on pääsyy sille, miksi pitkän kontekstin tekoälytehtävät – kuten oikeudellisen asiakirjan analysointi, podcastin tiivistäminen tai koodaaminen todella kontekstitietoisen avustajan kanssa – ovat pitkälti olleet keskitetyn pilvi-infrastruktuurin vankeja, jossa on riveittäin suurmuistisia näytönohjaimia .
TurboQuant käy ongelman kimppuun tekniikalla, jota kutsutaan aggressiiviseksi KV-välimuistin kvantisoinniksi. Konsepti on samankaltainen kuin kuvan pakkaaminen: se vaihtaa pienen määrän teoreettista numerotarkkuutta valtaviin käytännön hyötyihin muistitehokkuudessa .
Näin se toimii:
Tetherin avoimen lähdekoodin julkaisu ei ole vain teoreettinen paperi. Se on käytännön paketti, joka sisältää täyden kvantisointiputken, sovittimia yleisiin päättelykehyksiin ja eri työkuormille viritettyjä käyttöönottoprofiileja, mikä tekee siitä valmiin kehittäjien liitettäväksi projekteihinsa .
TurboQuantin todellinen merkitys kirkastuu, kun katsoo, missä se sijaitsee: QVAC Fabricin sisällä, joka on Tetherin QVAC SDK:n keskeinen LLM-ajoympäristö . QVAC, joka on lyhenne "Sovereign Mind" -aloitteesta, on Tetherin avoimen lähdekoodin, alustariippumaton kehityspaketti paikallisen, hajautetun tekoälyn rakentamiseen
. Se niputtaa ominaisuuksia, kuten LLM-tekstintuoton, puheentunnistuksen, käännöksen, tekstintunnistuksen (OCR), kuvien luonnin ja laitteella tapahtuvan hienosäädön yhden yhtenäisen ohjelmointirajapinnan taakse, joka on suunniteltu toimimaan identtisesti millä tahansa laitteella tai käyttöjärjestelmällä
.
Poistamalla KV-välimuistin muuriseinän TurboQuant on enemmän kuin suorituskykysäätö. Se on strateginen mahdollistaja Tetherin visiolle tekoälystä, joka toimii henkilökohtaisilla laitteilla, lähiverkoissa ja vertaisverkkoinfrastruktuurissa, vähentäen maailman riippuvuutta kourallisesta keskitettyjä hyperskaalan pilvipalveluita .
Tämän politiikka on julkilausuttua. Tetherin toimitusjohtaja Paolo Ardoino kehysti julkaisun kärkevin sanankääntein: "Jos pitkän kontekstin tekoäly toimii vain suurimmissa datakeskuksissa, tekoälyä muokkaa se, joka omistaa eniten rautaa" . TurboQuant on suunniteltu käytännön vastaukseksi tälle vallan keskittymiselle.
TurboQuant oli 0.12.0-julkaisun tähti, mutta se ei matkustanut yksin. Päivitys laajensi myös SDK:n multimodaalisia kykyjä merkittävillä tavoilla virallisen julkaisun ja sitä tukevan uutisoinnin perusteella :
@qvac/sdk-paketin kautta Julkaisemalla TurboQuantin avoimen lähdekoodin ohjelmistona ja integroimalla sen suoraan QVAC SDK:hon, Tether lyö vetoa siitä, että tekoälyn tulevaisuutta määrittelee yhtä paljon se, missä se toimii – omalla laitteellasi, käsissäsi – kuin se, mitä se pystyy tekemään.
Comments
0 comments