JawabanDipublikasikan2 bulan yang laluLast edited bulan lalu18 sumber

Tether Luncurkan TurboQuant: AI Canggih Kini Bisa Berjalan di Laptop dengan Memori 5 Kali Lebih Hemat

Tether merilis TurboQuant, alat open source yang memampatkan memori kerja (KV cache) model bahasa besar hingga 5×, memungkinkan sesi AI yang panjang dan kompleks berjalan di perangkat sehari hari tanpa kehilangan kual... Teknologi berbasis algoritma Google Research ini menjadi bagian inti dari QVAC SDK 0.12.0, keran...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

A stylized microchip glowing with data streams, representing the efficient, compressed AI memory processing enabled by Tether's TurboQuant technology. — What is Tether's open-source TurboQuant implementation, what problem does it solve for large language model inference, how does it achieve uTether's TurboQuant technology compresses the KV cache in LLMs by up to 5×, enabling complex AI to run locally. (Image: AI-generated)
AI Perintah
Create a landscape editorial hero image for this Studio Global article: What is Tether's open-source TurboQuant implementation, what problem does it solve for large language model inference, how does it achieve u. Article summary: Now I have comprehensive information. Let me compile the answer.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "The method compresses large language model (LLM) KV-cache to 3.5 bits per channel, delivering nearly 6× memory reduction, faster inference" source context "Google TurboQuant Signals Open Source Breakthrough In LLM Efficiency - Open Source For You" Reference image 2: visual subject "The method compresses large language model (LLM) KV-cache to 3.5 bits per channel, delivering nearly 6× memory reduction, faster inference" source context "Google TurboQuant Signals Open
openai.com

Pada 1 Juni 2026, Kelompok Riset AI Tether merilis sebuah alat open-source yang berpotensi membebaskan AI canggih dari ketergantungan pada pusat data raksasa. Alat bernama TurboQuant ini adalah implementasi siap produksi dari algoritma Google Research, yang dirancang untuk menghancurkan hambatan memori terbesar dalam model bahasa besar (LLM). Dengan memangkas kebutuhan memori untuk 'ingatan kerja' AI hingga 5 kali lipat, TurboQuant memungkinkan pengembang menjalankan sesi AI dengan konteks yang sangat panjang—seperti menganalisis ratusan halaman dokumen atau basis kode besar—langsung di perangkat yang mereka bawa sehari-hari, seperti laptop, ponsel, dan perangkat edge, tanpa mengorbankan kualitas hasil .

Ini bukan sekadar rasa penasaran teknis. Perilisan ini adalah bagian penting dari dorongan Tether yang lebih luas ke komputasi terdesentralisasi, dan hadir sebagai fitur utama dalam QVAC SDK 0.12.0, platform perusahaan untuk membangun AI yang sepenuhnya hidup di luar pusat data awan (cloud) .

Tembok Memori yang Dihancurkan TurboQuant

Untuk memahami mengapa ini penting, kita perlu melihat bagaimana LLM 'mengingat'. Saat Anda mengobrol dengan model AI atau memintanya menganalisis dokumen panjang, model tersebut tidak hanya mengacu pada data pelatihan aslinya. Ia membangun memori kerja yang dinamis dan real-time yang disebut key-value (KV) cache. KV cache inilah yang menyimpan konteks dari setiap kata dan interaksi yang diproses dalam sesi tersebut .

Masalahnya, KV cache ini sangat rakus memori. Ukurannya membengkak seiring bertambahnya setiap kata baru, diam-diam melahap gigabita RAM atau VRAM. Menurut Tether, untuk model dengan 4 miliar parameter yang bekerja dengan sekitar 262.000 token—seperti obrolan berjam-jam atau seluruh basis kode—KV cache saja sudah melahap sekitar 8 GB memori. Jalankan empat sesi seperti itu secara bersamaan, Anda bisa melihat penggunaan memori lebih dari 32 GB, bahkan sebelum model utamanya dimuat .

Pertumbuhan memori yang eksplosif inilah alasan utama mengapa tugas-tugas AI dengan konteks panjang—seperti menganalisis dokumen hukum, merangkum siniar (podcast), atau membuat kode dengan asisten yang benar-benar sadar konteks—selama ini terpenjara di infrastruktur awan terpusat dengan deretan GPU berkapasitas memori tinggi .

Bagaimana TurboQuant Mencapai Kompresi 5× dengan Kualitas Hampir Tanpa Kehilangan

TurboQuant mengatasi masalah ini secara langsung dengan teknik yang disebut kuantisasi KV cache agresif. Konsepnya mirip dengan mengompresi gambar: ia menukar sedikit presisi numerik teoretis demi keuntungan efisiensi memori yang sangat besar dan praktis .

Begini cara kerjanya:

Menyerang Target yang Tepat: Alih-alih mengompresi bobot model statis—teknik umum yang sering memerlukan pelatihan ulang—TurboQuant berfokus secara eksklusif pada nilai-nilai KV cache yang volatil yang dihasilkan saat proses inferensi berjalan.
Mengurangi Presisi Numerik: Alat ini mengurangi presisi angka dalam KV cache, biasanya dari format 16-bit atau bahkan 32-bit floating-point menjadi hanya 4-bit atau 2-bit .
Mengeksploitasi Redundansi Alami: Teknik ini bekerja karena pasangan kunci-nilai yang disimpan dalam cache memiliki banyak redundansi statistik. Metode kuantisasi TurboQuant cukup cerdas untuk mempertahankan informasi yang penting bagi prediksi model selanjutnya, sehingga kualitas akhirnya hampir tak bisa dibedakan dari model tanpa kompresi .

Rilis open-source Tether ini bukan sekadar makalah teoretis. Ini adalah paket praktis yang mencakup jalur kuantisasi lengkap, adaptor untuk kerangka kerja inferensi umum, dan profil penerapan yang disesuaikan untuk berbagai beban kerja, sehingga siap dipasang oleh pengembang ke proyek mereka .

Strategi: AI Lokal sebagai Pergeseran Kekuatan

Arti penting TurboQuant sebenarnya menjadi jelas saat Anda melihat ke mana ia ditempatkan: di dalam QVAC Fabric, mesin LLM inti dari QVAC SDK milik Tether . QVAC, yang merupakan singkatan dari inisiatif "Sovereign Mind", adalah SDK open-source dan lintas platform dari Tether untuk membangun AI yang mengutamakan lokal (local-first) dan terdesentralisasi . SDK ini menggabungkan berbagai kemampuan seperti teks ke teks (LLM), pengenalan suara, terjemahan, OCR, pembuatan gambar, dan penyempurnaan model langsung di perangkat, semuanya di balik satu API tunggal yang dapat berjalan identik di perangkat atau sistem operasi apa pun .

Dengan menghilangkan tembok memori KV cache, TurboQuant lebih dari sekadar penyesuaian performa. Ini adalah pendorong strategis bagi visi Tether tentang AI yang berjalan di perangkat pribadi, jaringan lokal, dan infrastruktur peer-to-peer, mengurangi ketergantungan dunia pada segelintir pusat data awan hiperskala yang tersentralisasi .

Politik di balik ini sangat jelas. CEO Tether, Paolo Ardoino, membingkai rilis ini dengan pernyataan tegas: “Jika AI dengan konteks panjang hanya berfungsi di dalam pusat data terbesar, maka AI akan dibentuk oleh siapa pun yang memiliki perangkat keras paling banyak” . TurboQuant dirancang sebagai jawaban praktis atas konsentrasi kekuatan tersebut.

Apa Lagi yang Baru di QVAC SDK 0.12.0

TurboQuant adalah bintang dari rilis 0.12.0, tetapi ia tidak berjalan sendiri. Pembaruan ini juga memperluas kemampuan multimodal SDK secara signifikan :

Pembuatan Teks-ke-Video: Sebuah kemampuan baru untuk membuat konten video dari perintah teks, memperluas perangkat AI generatif SDK .
Kontrol Robot: Primitif inferensi dan komponen runtime baru yang secara spesifik disertakan untuk aplikasi robotika, menandakan ekspansi ambisius ke dunia fisik .
Tumpukan AI Lengkap: Pembaruan 0.12.0 melanjutkan janji QVAC sebagai satu paket untuk puluhan tugas AI, termasuk transkripsi, terjemahan, teks-ke-suara, dan penyempurnaan model LoRA langsung di perangkat, semuanya dapat diakses melalui paket @qvac/sdk .

Dengan merilis TurboQuant sebagai perangkat lunak open-source dan mengintegrasikannya langsung ke dalam QVAC SDK, Tether sedang bertaruh bahwa masa depan AI akan sama-sama ditentukan oleh tempat ia berjalan—di perangkat Anda, di tangan Anda—seperti oleh apa yang bisa ia lakukan.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Tether Luncurkan TurboQuant: AI Canggih Kini Bisa Berjalan di Laptop dengan Memori 5 Kali Lebih Hemat"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

CEO Paolo Ardoino menyebut langkah ini strategis, dengan alasan bahwa jika AI canggih hanya bisa berjalan di pusat data terbesar, maka 'AI akan dibentuk oleh siapa pun yang memiliki perangkat keras paling banyak' [7].

Sumber

← Back to Trending