TencentDB Agent Memory: Hệ thống bộ nhớ nhiều lớp giúp AI agent chạy lâu hơn nhưng rẻ hơn
Tencent Cloud mã nguồn mở TencentDB Agent Memory, sử dụng bộ nhớ nhiều lớp và cơ chế “Context Offloading + Mermaid Task Canvas” để giảm tải context window và có thể giảm tiêu thụ token tới 61%. Hệ thống chuyển dữ liệu thô ra lưu trữ bên ngoài và chỉ giữ bản tóm tắt cùng bản đồ nhiệm vụ trong context của mô hình, giú...
What is Tencent Cloud’s newly open-sourced TencentDB Agent Memory, how does its layered memory architecture and “Context Offloading + MermaiTencentDB Agent Memory uses layered memory and a structured task graph to compress agent context and reduce token consumption.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: What is Tencent Cloud’s newly open-sourced TencentDB Agent Memory, how does its layered memory architecture and “Context Offloading + Mermai. Article summary: TencentDB Agent Memory is Tencent Cloud’s open-source memory layer for AI agents: it combines long-term personalized memory with short-term context compression so agents can run longer tasks without stuffing every tool r. Topic tags: general, general web. Reference image context from search candidates: Reference image 1: visual subject "3 weeks ago - Tencent Cloud’s Cube Sandbox goes fully open source with five technical breakthroughs, providing a production-grade foundation for AI Agent deployment at industrial s" source context "Tencent Cloud Cube Sandbox Goes Fully Open-Source, with Five Major Breakthroughs Enabling Large-Scale Agent Deployment -" Reference
openai.com
AI agent ngày càng được dùng để làm những việc phức tạp như tìm kiếm web, viết code, phân tích tài liệu hay tự động hóa quy trình doanh nghiệp. Nhưng chúng gặp một giới hạn kỹ thuật quan trọng: context window.
Khi agent chạy một chuỗi nhiệm vụ dài, mọi thứ — kết quả tìm kiếm, log công cụ, dữ liệu trung gian, và lịch sử hội thoại — đều bị nhét vào prompt của mô hình. Điều này khiến chi phí token tăng nhanh và đôi khi làm mô hình mất tập trung vào mục tiêu chính.
Để giải quyết vấn đề này, Tencent Cloud đã mã nguồn mở TencentDB Agent Memory vào tháng 5/2026. Hệ thống sử dụng kiến trúc bộ nhớ nhiều lớp cùng kỹ thuật “Context Offloading + Mermaid Task Canvas” nhằm lưu trữ chi tiết bên ngoài context, chỉ giữ lại thông tin cô đọng cho mô hình. Theo thử nghiệm nội bộ của Tencent, cách tiếp cận này có thể giảm mức tiêu thụ token tới 61% và cải thiện tỷ lệ hoàn thành nhiệm vụ dài.
TencentDB Agent Memory là gì?
TencentDB Agent Memory là một engine bộ nhớ mã nguồn mở dành cho AI agent chạy các workflow dài và nhiều bước.
Dự án được phát hành theo giấy phép MIT, hỗ trợ cả:
Bộ nhớ dài hạn giữa nhiều phiên làm việc
Nén ngữ cảnh (context) trong lúc agent đang thực thi nhiệm vụ
Mục tiêu là giúp agent:
Ghi nhớ sở thích người dùng và các workflow trước đó
Duy trì trạng thái nhiệm vụ trong các chuỗi hành động dài
Giảm lượng dữ liệu thô phải đưa vào prompt của mô hình
Thay vì liên tục đưa toàn bộ log và dữ liệu vào context, hệ thống tổ chức thông tin theo cấu trúc nhiều tầng và bản tóm tắt để mô hình chỉ xử lý phần quan trọng.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Câu trả lời ngắn gọn cho "TencentDB Agent Memory: Hệ thống bộ nhớ nhiều lớp giúp AI agent chạy lâu hơn nhưng rẻ hơn" là gì?
Tencent Cloud mã nguồn mở TencentDB Agent Memory, sử dụng bộ nhớ nhiều lớp và cơ chế “Context Offloading + Mermaid Task Canvas” để giảm tải context window và có thể giảm tiêu thụ token tới 61%.
Những điểm chính cần xác nhận đầu tiên là gì?
Tencent Cloud mã nguồn mở TencentDB Agent Memory, sử dụng bộ nhớ nhiều lớp và cơ chế “Context Offloading + Mermaid Task Canvas” để giảm tải context window và có thể giảm tiêu thụ token tới 61%. Hệ thống chuyển dữ liệu thô ra lưu trữ bên ngoài và chỉ giữ bản tóm tắt cùng bản đồ nhiệm vụ trong context của mô hình, giúp agent xử lý các workflow nhiều bước mà không làm prompt phình to.
Tôi nên làm gì tiếp theo trong thực tế?
Theo kết quả do Tencent công bố, các benchmark như WideSearch, SWE‑bench và PersonaMem đều cho thấy tỷ lệ hoàn thành nhiệm vụ cao hơn, dù các kết quả này vẫn cần được kiểm chứng độc lập.
Tencent thiết kế bộ nhớ dài hạn theo 4 tầng, chuyển đổi dữ liệu từ hội thoại thô sang kiến thức có cấu trúc.
L0 – Raw Dialogue Layer
Lưu toàn bộ cuộc hội thoại và tương tác nhiệm vụ ở dạng nguyên bản.
L1 – Atomic Memory Layer
Trích xuất các sự kiện hoặc dữ kiện quan trọng như sở thích người dùng, ràng buộc nhiệm vụ hoặc kết luận từ các bước trước.
L2 – Scenario Summary Layer
Tổng hợp ký ức theo từng kịch bản hoặc loại nhiệm vụ để agent nhận ra các mẫu workflow lặp lại.
L3 – User Profile Layer
Tóm lược hành vi và sở thích lâu dài của người dùng thành một hồ sơ gọn nhẹ.
Cách tổ chức này giúp agent tái sử dụng kinh nghiệm từ các phiên trước, thay vì phải tính toán lại từ đầu mỗi lần.
Điểm đổi mới chính: Context Offloading + Mermaid Task Canvas
Hiệu quả lớn nhất của hệ thống đến từ cách quản lý bộ nhớ ngắn hạn trong quá trình thực thi nhiệm vụ dài.
Context Offloading
Sau mỗi lần agent gọi công cụ (ví dụ: tải một trang web hoặc chạy code), toàn bộ kết quả chi tiết được lưu bên ngoài prompt, chẳng hạn trong file hoặc cơ sở dữ liệu.
Trong context của mô hình chỉ giữ lại:
bản tóm tắt ngắn gọn
hoặc tham chiếu đến dữ liệu gốc
Nhờ vậy, các log dài hoặc nội dung trang web không chiếm chỗ trong context window.
Mermaid Task Canvas
Thay vì lưu lịch sử văn bản dài, Tencent biểu diễn tiến trình nhiệm vụ bằng đồ thị nhiệm vụ viết bằng Mermaid — một ngôn ngữ mô tả sơ đồ dạng văn bản phổ biến trong tài liệu lập trình.
Canvas này hoạt động như bản đồ điều hướng cho agent:
mỗi node đại diện một bước trong nhiệm vụ
edge thể hiện quan hệ phụ thuộc giữa các bước
mỗi node chứa trạng thái hoặc tóm tắt ngắn
Vì mô hình chỉ cần suy luận trên cấu trúc nhiệm vụ, thay vì đọc toàn bộ lịch sử chi tiết, nó có thể theo dõi workflow phức tạp với ít token hơn.
Tencent mô tả sự khác biệt bằng một phép so sánh đơn giản: log giống như nhật ký chi tiết, còn bản đồ giúp bạn định hướng. Mermaid Task Canvas đóng vai trò bản đồ đó cho AI agent.
Nén ngữ cảnh theo “mực nước” context
TencentDB Agent Memory cũng theo dõi mức sử dụng context và nén dữ liệu động khi prompt dần đầy.
Một số ngưỡng tiêu biểu:
L1 – Tóm tắt thời gian thực: sau mỗi lần gọi công cụ, kết quả được tóm tắt ngay.
L2 – Cập nhật task canvas: bản đồ nhiệm vụ được cập nhật để phản ánh trạng thái workflow.
L3 – Nén sâu: khi context đạt khoảng 80%, hệ thống nén hoặc loại bỏ các thông điệp cũ.
Nếu mức sử dụng lên tới khoảng 95%, hệ thống kích hoạt chế độ nén khẩn cấp để giảm tải context xuống mức an toàn.
Kết quả benchmark do Tencent công bố
Tencent báo cáo một số cải thiện hiệu năng khi tích hợp Agent Memory vào các framework agent. Đây là kết quả nội bộ do nhà cung cấp công bố, chưa phải benchmark độc lập.
WideSearch benchmark
Pass rate: 33% → 50% (tăng tương đối 51,52%)
Token: 221,31M → 85,64M (giảm 61,38%)
SWE‑bench
Success rate: 58,4% → 64,2%
Token: 3474,1M → 2375,4M (giảm 33,09%)
AA‑LCR benchmark
Success rate: 44,0% → 47,5%
Token: 112,0M → 77,3M (giảm 30,98%)
PersonaMem benchmark
Độ chính xác tăng từ khoảng 48% lên 76% sau khi thêm hệ thống bộ nhớ.
Tencent cũng cho biết khi thử nghiệm trên 1.540 nhiệm vụ gồm viết code, tìm kiếm web, phân tích tài liệu và workflow dài nhiều bước, tỷ lệ hoàn thành nhiệm vụ tăng 12–35%, trong khi lượng token giảm 33–64%.
Sự khác nhau giữa bản ra mắt tháng 4 và bản mã nguồn mở ngày 14/5
TencentDB Agent Memory được giới thiệu từ đầu năm 2026, nhưng trọng tâm của dự án đã thay đổi giữa hai mốc phát hành.
Bản ra mắt tháng 4
Giới thiệu hệ thống bộ nhớ dài hạn bốn tầng
Nhấn mạnh khả năng ghi nhớ qua nhiều phiên làm việc
Công bố cải thiện trên benchmark PersonaMem
Bản mã nguồn mở ngày 14/5
Phát hành toàn bộ stack dưới dạng mã nguồn mở theo giấy phép MIT
Bổ sung hệ thống nén bộ nhớ ngắn hạn cho nhiệm vụ dài
Giới thiệu cơ chế Context Offloading + Mermaid Task Canvas
Nói cách khác, bản đầu tập trung vào ghi nhớ lâu dài, còn bản mã nguồn mở tập trung giải quyết tình trạng quá tải context khi agent làm việc liên tục.
Các framework đã tích hợp
Tencent cho biết hệ thống có thể tích hợp vào nhiều framework agent hiện có.
Một số ví dụ:
OpenClaw, hoạt động như plugin mở rộng bộ nhớ
Hermes Gateway / Hermes Agent, hỗ trợ triển khai qua Docker từ phiên bản 0.3.4 trở lên
Nhờ vậy, nhà phát triển có thể thêm khả năng bộ nhớ và nén context mà không cần thiết kế lại toàn bộ kiến trúc agent.
Vì sao điều này quan trọng trong cuộc đua AI agent
Khi AI agent chuyển từ demo sang ứng dụng thực tế — trợ lý lập trình, agent nghiên cứu, hay tự động hóa doanh nghiệp — chi phí token của context window trở thành nút thắt lớn. Chuỗi gọi công cụ dài có thể khiến chi phí tăng vọt và làm giảm chất lượng suy luận.
Giải pháp của Tencent nhắm vào hai vấn đề cùng lúc:
Chi phí: giảm lượng token giúp vận hành agent rẻ hơn
Độ ổn định: cấu trúc nhiệm vụ rõ ràng giúp agent không “lạc hướng” trong workflow dài
Nếu các kết quả này được xác nhận rộng rãi hơn, những hệ thống như TencentDB Agent Memory có thể trở thành lớp hạ tầng quan trọng cho AI agent tự động.
Tuy vậy, hiện tại phần lớn số liệu vẫn là kết quả do Tencent công bố, và cần thêm đánh giá độc lập để xác nhận hiệu quả trên nhiều mô hình và framework khác nhau.
Comments
0 comments