Google menyediakan lima saiz model Gemma 4 yang semuanya telah dioptimumkan dengan QAT. Jadual di bawah meringkaskan penggunaan memori setiap model apabila dijalankan dalam format 4-bit berbanding ketepatan penuh BF16 .
Nota Penting: Model 26B A4B ialah model Campuran Pakar (Mixture of Experts - MoE). Ia mempunyai 26 bilion parameter secara keseluruhan, tetapi hanya sekitar 3.8 bilion yang 'aktif' pada setiap token input. Ini menjadikannya sepantas model 4B, namun dengan kepintaran setanding model 26B .
Google menyediakan checkpoint QAT dalam beberapa format untuk memenuhi pelbagai keperluan pengguna :
llama.cpp, Ollama, dan MLX. Ini adalah pilihan utama untuk peminat yang menjalankan AI secara lokal pada PC atau Mac Dengan pengurangan memori yang drastik, model yang sebelum ini hanya boleh berjalan pada pelayan atau GPU kelas server, kini boleh dijalankan pada perkakasan pengguna biasa:
Ini bermakna, buat pertama kalinya, model AI yang berkuasa untuk pengekodan, penulisan, analisis dokumen panjang, dan aliran kerja ejen boleh dijalankan secara lokal dan peribadi pada PC gaming atau telefon bimbit anda.
Walaupun QAT menawarkan lonjakan besar, pemilihan format adalah kritikal. Dokumentasi Gemma 4 QAT memberi amaran bahawa menukar pemberat QAT secara naif kepada format Q4_0 boleh menyebabkan penurunan kualiti yang drastik—contohnya, model 26B hanya mencapai sekitar 70.2% ketepatan top-1 .
Ini berlaku kerana maklumat berharga yang disimpan dalam struktur pemberat terlatih-QAT boleh hilang jika tidak ditangani dengan betul. Untuk pengguna yang ingin menukar format sendiri, penyelidikan dari Unsloth menunjukkan kaedah "Unsloth Dynamic" dapat memulihkan dan meningkatkan ketepatan kepada 85.6%, sambil menjadikan fail model 200MB lebih kecil .
Kesimpulannya, untuk kebanyakan pengguna, menggunakan checkpoint QAT rasmi yang telah disediakan dalam format GGUF atau compressed-tensors adalah laluan paling selamat untuk memastikan anda menikmati penjimatan memori tanpa mengorbankan kepintaran model .
Comments
0 comments