Vấn đề là bộ đệm KV này ngốn bộ nhớ như 'hổ đói'. Nó phình ra với mỗi token mới, âm thầm tiêu thụ hàng gigabyte RAM hoặc VRAM. Theo Tether, với một mô hình 4 tỷ tham số làm việc với khoảng 262.000 token—tương đương hàng giờ trò chuyện hoặc toàn bộ một kho mã nguồn—chỉ riêng bộ đệm KV đã ngốn khoảng 8 GB bộ nhớ. Chạy bốn phiên như vậy cùng lúc, bạn sẽ cần tới hơn 32 GB bộ nhớ, trước khi tải chính mô hình đó .
Sự bùng nổ về mức tiêu thụ bộ nhớ này là lý do chính khiến các tác vụ AI ngữ cảnh dài—như phân tích một văn bản pháp lý, tóm tắt một podcast, hay lập trình với một trợ lý thực sự hiểu ngữ cảnh—phần lớn vẫn là 'tù nhân' của hạ tầng đám mây tập trung với những dàn GPU bộ nhớ khủng .
TurboQuant giải quyết vấn đề này một cách trực diện bằng một kỹ thuật gọi là lượng tử hóa KV cache mạnh mẽ. Ý tưởng này tương tự như việc nén một bức ảnh: nó đánh đổi một chút độ chính xác số học lý thuyết để đổi lấy lợi ích thực tế to lớn về hiệu quả bộ nhớ .
Đây là cách nó hoạt động:
Bản phát hành mã nguồn mở của Tether không chỉ là một bài báo lý thuyết. Nó là một gói công cụ thực tế bao gồm pipeline lượng tử hóa đầy đủ, các bộ chuyển đổi cho các framework suy luận phổ biến, và các cấu hình triển khai được tinh chỉnh cho nhiều khối lượng công việc khác nhau, sẵn sàng để các nhà phát triển tích hợp vào dự án của họ .
Ý nghĩa thực sự của TurboQuant trở nên rõ ràng khi bạn nhìn vào nơi nó trú ngụ: bên trong QVAC Fabric, runtime LLM cốt lõi của QVAC SDK của Tether . QVAC, viết tắt của sáng kiến "Tâm Trí Tự Chủ" (Sovereign Mind), là bộ công cụ phát triển mã nguồn mở, đa nền tảng của Tether để xây dựng AI ưu tiên cục bộ, phi tập trung
. Nó gói gọn các khả năng như suy luận LLM, nhận dạng giọng nói, dịch thuật, nhận dạng ký tự quang học (OCR), tạo hình ảnh và tinh chỉnh trên thiết bị sau một API thống nhất, có nghĩa là chạy giống hệt nhau trên mọi thiết bị hay hệ điều hành
.
Bằng cách phá bỏ bức tường bộ nhớ KV-cache, TurboQuant không chỉ là một tinh chỉnh hiệu suất. Nó là một công cụ chiến lược cho tầm nhìn của Tether về một nền AI chạy trên các thiết bị cá nhân, mạng cục bộ và hạ tầng ngang hàng, giảm sự phụ thuộc của thế giới vào một vài đám mây siêu quy mô tập trung .
Tính chính trị của vấn đề này là rõ ràng. CEO của Tether, Paolo Ardoino, đã định hình bản phát hành này bằng những từ ngữ mạnh mẽ: “Nếu AI ngữ cảnh dài chỉ hoạt động trong các trung tâm dữ liệu lớn nhất, thì AI sẽ bị định hình bởi bất kỳ ai sở hữu nhiều phần cứng nhất” . TurboQuant được thiết kế để trở thành một câu trả lời thực tế cho sự tập trung quyền lực đó.
TurboQuant là ngôi sao của bản phát hành 0.12.0, nhưng nó không đi một mình. Bản cập nhật cũng mở rộng khả năng đa phương thức của SDK một cách đáng kể, dựa trên thông báo chính thức và các bài báo liên quan :
@qvac/sdk Bằng cách phát hành TurboQuant dưới dạng phần mềm mã nguồn mở và tích hợp trực tiếp vào QVAC SDK, Tether đang đặt cược rằng tương lai của AI sẽ được định hình bởi nơi nó chạy—trên thiết bị của bạn, trong tầm tay bạn—nhiều như những gì nó có thể làm.
Comments
0 comments