Masalahnya, KV cache ini sangat rakus memori. Ukurannya membengkak seiring bertambahnya setiap kata baru, diam-diam melahap gigabita RAM atau VRAM. Menurut Tether, untuk model dengan 4 miliar parameter yang bekerja dengan sekitar 262.000 token—seperti obrolan berjam-jam atau seluruh basis kode—KV cache saja sudah melahap sekitar 8 GB memori. Jalankan empat sesi seperti itu secara bersamaan, Anda bisa melihat penggunaan memori lebih dari 32 GB, bahkan sebelum model utamanya dimuat .
Pertumbuhan memori yang eksplosif inilah alasan utama mengapa tugas-tugas AI dengan konteks panjang—seperti menganalisis dokumen hukum, merangkum siniar (podcast), atau membuat kode dengan asisten yang benar-benar sadar konteks—selama ini terpenjara di infrastruktur awan terpusat dengan deretan GPU berkapasitas memori tinggi .
TurboQuant mengatasi masalah ini secara langsung dengan teknik yang disebut kuantisasi KV cache agresif. Konsepnya mirip dengan mengompresi gambar: ia menukar sedikit presisi numerik teoretis demi keuntungan efisiensi memori yang sangat besar dan praktis .
Begini cara kerjanya:
Rilis open-source Tether ini bukan sekadar makalah teoretis. Ini adalah paket praktis yang mencakup jalur kuantisasi lengkap, adaptor untuk kerangka kerja inferensi umum, dan profil penerapan yang disesuaikan untuk berbagai beban kerja, sehingga siap dipasang oleh pengembang ke proyek mereka .
Arti penting TurboQuant sebenarnya menjadi jelas saat Anda melihat ke mana ia ditempatkan: di dalam QVAC Fabric, mesin LLM inti dari QVAC SDK milik Tether . QVAC, yang merupakan singkatan dari inisiatif "Sovereign Mind", adalah SDK open-source dan lintas platform dari Tether untuk membangun AI yang mengutamakan lokal (local-first) dan terdesentralisasi
. SDK ini menggabungkan berbagai kemampuan seperti teks ke teks (LLM), pengenalan suara, terjemahan, OCR, pembuatan gambar, dan penyempurnaan model langsung di perangkat, semuanya di balik satu API tunggal yang dapat berjalan identik di perangkat atau sistem operasi apa pun
.
Dengan menghilangkan tembok memori KV cache, TurboQuant lebih dari sekadar penyesuaian performa. Ini adalah pendorong strategis bagi visi Tether tentang AI yang berjalan di perangkat pribadi, jaringan lokal, dan infrastruktur peer-to-peer, mengurangi ketergantungan dunia pada segelintir pusat data awan hiperskala yang tersentralisasi .
Politik di balik ini sangat jelas. CEO Tether, Paolo Ardoino, membingkai rilis ini dengan pernyataan tegas: “Jika AI dengan konteks panjang hanya berfungsi di dalam pusat data terbesar, maka AI akan dibentuk oleh siapa pun yang memiliki perangkat keras paling banyak” . TurboQuant dirancang sebagai jawaban praktis atas konsentrasi kekuatan tersebut.
TurboQuant adalah bintang dari rilis 0.12.0, tetapi ia tidak berjalan sendiri. Pembaruan ini juga memperluas kemampuan multimodal SDK secara signifikan :
@qvac/sdk Dengan merilis TurboQuant sebagai perangkat lunak open-source dan mengintegrasikannya langsung ke dalam QVAC SDK, Tether sedang bertaruh bahwa masa depan AI akan sama-sama ditentukan oleh tempat ia berjalan—di perangkat Anda, di tangan Anda—seperti oleh apa yang bisa ia lakukan.
Comments
0 comments