Masalahnya, cache KV ini adalah pemakan memori yang sangat rakus. Ia mengembang dengan setiap token baharu, secara senyap memakan gigabait RAM atau VRAM. Menurut Tether, untuk model berparameter 4 bilion yang berfungsi dengan kira-kira 262,000 token—mungkin perbualan berjam-jam atau keseluruhan pangkalan kod—cache KV sahaja menelan kira-kira 8 GB memori. Jalankan empat sesi sedemikian serentak, dan penggunaan memori mencecah lebih 32 GB, sebelum model itu sendiri dimuatkan .
Pertumbuhan memori yang mendadak ini adalah sebab utama tugas AI berkonteks panjang—seperti menganalisis dokumen undang-undang, meringkaskan podcast, atau mengekod dengan pembantu yang benar-benar sedar konteks—sebahagian besarnya terkurung dalam infrastruktur awan terpusat dengan deretan GPU bermemori tinggi .
TurboQuant menangani masalah ini secara langsung dengan teknik yang dipanggil kuantisasi cache KV agresif. Konsepnya serupa dengan memampatkan imej: ia menukar sedikit ketepatan berangka teori untuk keuntungan praktikal yang besar dalam kecekapan memori .
Begini cara ia berfungsi:
Lancaran sumber terbuka Tether bukan sekadar kertas teori. Ia adalah pakej praktikal yang merangkumi saluran paip kuantisasi penuh, penyesuai untuk rangka kerja inferens biasa, dan profil penggunaan yang ditala untuk beban kerja yang berbeza, menjadikannya sedia untuk dipasang oleh pembangun ke dalam projek mereka .
Kepentingan sebenar TurboQuant menjadi jelas apabila melihat di mana ia berada: di dalam QVAC Fabric, masa jalan LLM teras bagi QVAC SDK Tether . QVAC, singkatan bagi inisiatif "Minda Berdaulat", ialah SDK sumber terbuka dan rentas platform Tether untuk membina AI terdesentralisasi yang mengutamakan peranti setempat
. Ia menggabungkan keupayaan seperti penyelesaian LLM, pengecaman pertuturan, terjemahan, OCR, penjanaan imej, dan penalaan halus pada peranti di sebalik satu API bersatu yang direka untuk berjalan secara identik pada mana-mana peranti atau sistem operasi
.
Dengan menyingkirkan tembok memori cache KV, TurboQuant adalah lebih daripada sekadar tweak prestasi. Ia adalah pemboleh strategik untuk visi Tether tentang AI yang berjalan pada peranti peribadi, rangkaian tempatan, dan infrastruktur rakan-ke-rakan, mengurangkan kebergantungan dunia kepada segelintir awan hiperskala terpusat .
Politik di sebalik ini adalah eksplisit. CEO Tether, Paolo Ardoino, merangka pelancaran ini dalam istilah yang jelas: “Jika AI berkonteks panjang hanya berfungsi di dalam pusat data terbesar, maka AI akan dibentuk oleh sesiapa yang memiliki paling banyak perkakasan” . TurboQuant direka sebagai jawapan praktikal kepada penumpuan kuasa itu.
TurboQuant adalah bintang bagi keluaran 0.12.0, tetapi ia tidak datang bersendirian. Kemas kini ini turut memperluaskan keupayaan multimodal SDK dengan cara yang ketara, berdasarkan siaran rasmi dan liputan sokongan :
@qvac/sdk Dengan melancarkan TurboQuant sebagai perisian sumber terbuka dan mengintegrasikannya terus ke dalam QVAC SDK, Tether membuat pertaruhan bahawa masa depan AI akan ditentukan oleh tempat ia berjalan—pada peranti anda, di tangan anda—sama seperti apa yang boleh dilakukannya.
Comments
0 comments