group_size=32compressed-tensorsDòng Gemma 4 cung cấp năm kích cỡ tham số khác nhau, phục vụ từ các thiết bị biên nhỏ nhất đến các máy trạm cấu hình cao :
Lưu ý đặc biệt về mô hình 26B A4B: Đây là kiến trúc Hỗn hợp Chuyên gia (MoE) với tổng 26 tỷ tham số nhưng chỉ kích hoạt khoảng 3.8 tỷ tham số cho mỗi token. Điều này có nghĩa là bạn nhận được sức mạnh suy luận của một mô hình cỡ 26B nhưng chi phí tính toán chỉ tương đương một mô hình 4B khi chạy suy luận
.
Google cung cấp bốn phiên bản điểm kiểm tra QAT, đáp ứng hầu hết các hệ sinh thái suy luận phổ biến :
Việc phát hành QAT chính thức mang lại những khả năng chưa từng có cho người dùng phổ thông:
Mô hình 31B với cửa sổ ngữ cảnh 256K token giờ đây khả thi trên phần cứng tiêu dùng cao cấp, thay vì đòi hỏi GPU máy chủ H100 80GB như trước đây . Điều này có nghĩa là các nhà phát triển độc lập, sinh viên và các công ty khởi nghiệp có thể thử nghiệm và triển khai các tác nhân AI (agentic workflows), trợ lý lập trình và hệ thống suy luận phức tạp mà không cần chi phí đám mây khổng lồ
.
Mặc dù QAT mang lại lợi thế vượt trội, Google và cộng đồng (như Unsloth) đã đưa ra một lưu ý quan trọng. Việc chuyển đổi một cách "ngây thơ" từ trọng số QAT sang định dạng Q4_0 tiêu chuẩn có thể làm giảm mạnh độ chính xác. Thử nghiệm với mô hình 26B cho thấy cách chuyển đổi thô sơ chỉ đạt 70.2% độ chính xác top-1, nhưng khi áp dụng phương pháp tối ưu hóa động (Unsloth Dynamic), con số này được đẩy lên 85.6% .
Lời khuyên thực tế là hãy ưu tiên sử dụng các điểm kiểm tra QAT-oriented chính thức (như compressed-tensors hoặc GGUF chính chủ từ Google) để bảo toàn tối đa chất lượng mà QAT mang lại .
Với việc phát hành các điểm kiểm tra QAT cho Gemma 4, Google đã xóa nhòa ranh giới giữa AI "phòng thí nghiệm" và AI "trong túi bạn". Từ chiếc điện thoại Android với 1GB RAM cho đến máy trạm RTX 4090 mạnh mẽ, giờ đây sức mạnh của các mô hình ngôn ngữ lớn nhất đã thực sự được dân chủ hóa. Kỷ nguyên AI riêng tư, ngoại tuyến và cá nhân hóa sâu sắc đã chính thức bắt đầu.
Comments
0 comments