Sorun şu ki, bu KV önbelleği inanılmaz derecede obur bir hafıza tüketicisidir. İşlenen her yeni kelimeyle (token) birlikte şişer ve sessizce gigabaytlarca RAM veya VRAM tüketir. Tether'ın verdiği bilgiye göre, yaklaşık 262.000 token (saatlerce süren bir sohbet veya bütün bir yazılım kod tabanı olabilir) ile çalışan 4 milyar parametreli bir model için KV önbelleği tek başına yaklaşık 8 GB hafıza tüketiyor. Bu tür dört oturumu aynı anda çalıştırdığınızı düşünün; modelin kendisini yüklemeden önce 32 GB'ın üzerinde bir hafıza kullanımıyla karşı karşıyasınız demektir .
Bu patlayıcı hafıza büyümesi, hukuki bir belgeyi analiz etmek, bir podcast'in özetini çıkarmak veya bağlamın gerçekten farkında olan bir asistanla kod yazmak gibi uzun soluklu yapay zeka görevlerinin, sıra sıra yüksek hafızalı GPU'larla donatılmış merkezi bulut altyapısının adeta bir mahkûmu olmasının ana nedenidir .
TurboQuant bu sorunun üzerine, agresif KV önbellek niceleme adı verilen bir teknikle gidiyor. Konsept, bir görüntüyü sıkıştırmaya benziyor: küçük bir teorik sayısal hassasiyet, hafıza verimliliğinde büyük pratik kazançlar için takas ediliyor .
İşleyiş prensibi şöyle:
Tether'ın açık kaynak sürümü yalnızca teorik bir makale değil. Eksiksiz bir niceleme hattı, yaygın çıkarım çerçeveleri için bağdaştırıcılar ve farklı iş yükleri için ayarlanmış dağıtım profilleri içeren pratik bir paket olarak geliyor ve geliştiricilerin projelerine entegre etmesi için hazır .
TurboQuant'ın gerçek önemi, nerede konumlandığına bakınca netleşiyor: Tether'ın QVAC SDK'sının temel LLM çalışma zamanı olan QVAC Fabric'in içinde . "Egemen Zihin" (Sovereign Mind) girişiminin kısaltması olan QVAC, Tether'ın yerel öncelikli, merkeziyetsiz yapay zeka inşa etmek için geliştirdiği açık kaynaklı, çapraz platform bir SDK'dır
. LLM tamamlama, konuşma tanıma, çeviri, optik karakter tanıma (OCR), görüntü oluşturma ve cihaz üzerinde ince ayar gibi yetenekleri, herhangi bir cihaz veya işletim sisteminde aynı şekilde çalışması amaçlanan tek ve birleşik bir API arkasında toplar
.
TurboQuant, KV-önbellek hafıza duvarını ortadan kaldırarak bir performans ince ayarından çok daha fazlasını ifade ediyor. Tether'ın kişisel cihazlarda, yerel ağlarda ve uçtan uca altyapılarda çalışan, dünyanın bir avuç merkezi hiper ölçekli buluta olan bağımlılığını azaltan yapay zeka vizyonu için stratejik bir kolaylaştırıcı rolünde .
Bunun politik boyutu oldukça açık. Tether CEO'su Paolo Ardoino, bu sürümü keskin bir dille çerçeveledi: "Eğer uzun bağlamlı yapay zeka yalnızca en büyük veri merkezlerinde çalışırsa, o zaman yapay zeka en çok donanıma sahip olan kişi tarafından şekillendirilecektir" . TurboQuant, bu güç yoğunlaşmasına pratik bir cevap olarak tasarlandı.
TurboQuant, 0.12.0 sürümünün yıldızıydı, ancak tek başına gelmedi. Resmi sürüm notlarına ve destekleyici haberlere göre, bu güncelleme SDK'nın çok modlu yeteneklerini de önemli ölçüde genişletti :
@qvac/sdk paketi aracılığıyla tek bir içe aktarma (import) vaadini geliştirmeye devam ediyor Tether, TurboQuant'ı açık kaynaklı bir yazılım olarak piyasaya sürerek ve doğrudan QVAC SDK'ya entegre ederek, yapay zekanın geleceğinin, ne yapabildiği kadar nerede çalıştığıyla da (sizin cihazınızda, sizin ellerinizde) tanımlanacağına dair bir bahse giriyor.
Comments
0 comments