RéponsesPubliéil y a 2 moisLast edited le mois dernier15 sources

TencentDB Agent Memory : comment Tencent veut rendre les agents IA plus efficaces et moins coûteux

Tencent Cloud a open‑sourcé TencentDB Agent Memory, un moteur de mémoire pour agents IA capable de réduire la consommation de tokens jusqu’à 61 % dans certaines tâches longues. Le système combine mémoire long terme en quatre couches et compression du contexte via « Context Offloading » et un graphe de tâches Mermaid...

Rechercher et vérifier les faits avec Studio Global AI Voir plus de pages tendance

Conceptual illustration of TencentDB Agent Memory showing layered AI memory and task graph compression — What is Tencent Cloud’s newly open-sourced TencentDB Agent Memory, how does its layered memory architecture and “Context Offloading + MermaiTencentDB Agent Memory uses layered memory and a structured task graph to compress agent context and reduce token consumption.
Prompt IA
Create a landscape editorial hero image for this Studio Global article: What is Tencent Cloud’s newly open-sourced TencentDB Agent Memory, how does its layered memory architecture and “Context Offloading + Mermai. Article summary: TencentDB Agent Memory is Tencent Cloud’s open-source memory layer for AI agents: it combines long-term personalized memory with short-term context compression so agents can run longer tasks without stuffing every tool r. Topic tags: general, general web. Reference image context from search candidates: Reference image 1: visual subject "3 weeks ago - Tencent Cloud’s Cube Sandbox goes fully open source with five technical breakthroughs, providing a production-grade foundation for AI Agent deployment at industrial s" source context "Tencent Cloud Cube Sandbox Goes Fully Open-Source, with Five Major Breakthroughs Enabling Large-Scale Agent Deployment -" Reference
openai.com

Les agents d’intelligence artificielle ont un problème structurel : leur fenêtre de contexte est limitée. Lorsqu’un agent enchaîne des actions — recherche web, génération de code, analyse de documents — il accumule rapidement des journaux d’exécution, résultats d’outils et étapes intermédiaires. Tout cela finit par saturer le prompt du modèle, ce qui augmente les coûts en tokens et complique le raisonnement.

Pour répondre à ce défi, Tencent Cloud a publié en open source TencentDB Agent Memory en mai 2026. Le projet introduit une architecture de mémoire en plusieurs couches et une technique baptisée « Context Offloading + Mermaid Task Canvas ». L’objectif : stocker les informations détaillées hors du contexte actif du modèle tout en conservant une représentation structurée et compacte des tâches en cours. Dans ses tests internes, Tencent affirme que cette approche peut réduire la consommation de tokens jusqu’à 61 % tout en améliorant les taux de réussite sur les tâches longues.

Qu’est‑ce que TencentDB Agent Memory ?

TencentDB Agent Memory est un moteur de mémoire open source pour agents IA conçu pour les workflows longs et multi‑étapes. Le projet est publié sous licence MIT, ce qui permet aux développeurs de l’intégrer librement dans leurs propres systèmes.

Il apporte deux capacités principales :

une mémoire long terme qui persiste entre différentes sessions
une compression du contexte à court terme pendant l’exécution d’une tâche

Concrètement, le système permet aux agents de :

mémoriser préférences et habitudes utilisateur
conserver l’état d’une tâche complexe sur plusieurs étapes
réduire la quantité de données brutes injectées dans le prompt

Au lieu d’inclure chaque résultat de recherche, chaque log ou chaque message intermédiaire dans le contexte du modèle, les informations sont transformées en résumés structurés et en connaissances réutilisables.

Une architecture de mémoire long terme en quatre couches

La mémoire persistante de TencentDB Agent Memory est organisée en quatre niveaux progressifs, qui transforment les interactions brutes en connaissances structurées.

L0 — Couche de dialogue brut
Enregistre l’intégralité des conversations et interactions telles qu’elles se produisent.

L1 — Couche de mémoire atomique
Extrait des faits structurés : préférences utilisateur, contraintes, résultats d’étapes précédentes.

L2 — Couche de résumé de scénario
Regroupe les informations liées à un type de tâche ou de workflow.

L3 — Couche de profil utilisateur
Condense les comportements et préférences sur le long terme dans un profil compact.

Avec ce système, les agents peuvent progressivement transformer des conversations fragmentées en connaissances exploitables, ce qui leur évite de recalculer les mêmes informations à chaque session.

L’innovation clé : Context Offloading et Mermaid Task Canvas

La principale amélioration d’efficacité concerne la gestion de la mémoire de travail pendant les tâches longues.

Context Offloading

Après l’appel à un outil — par exemple récupérer une page web ou exécuter du code — la sortie complète est stockée dans un stockage externe. Seul un résumé dense ou une référence reste dans le contexte du modèle.

Cela empêche les contenus volumineux (logs, documents, résultats bruts) d’occuper durablement la fenêtre de contexte.

Mermaid Task Canvas

Plutôt que de conserver un historique textuel très long, Tencent représente l’état de la tâche sous forme d’un graphe de tâches écrit en Mermaid, un langage textuel de diagrammes très utilisé dans la documentation technique.

Cette « toile de tâches » fonctionne comme une carte de navigation pour l’agent :

les nœuds représentent des étapes
les liens montrent les dépendances
chaque étape contient un résumé ou un état

L’agent n’a donc plus besoin de parcourir un long historique de messages : il raisonne à partir de la structure du workflow, ce qui réduit fortement l’utilisation de tokens.

Tencent résume l’idée avec une analogie : un journal enregistre tout, mais une carte aide à se repérer. La tâche Mermaid joue ce rôle de carte pour l’agent.

Compression dynamique selon la “pression” du contexte

Le système surveille en permanence le niveau d’occupation de la fenêtre de contexte et adapte la compression.

Plusieurs seuils déclenchent différents mécanismes :

Compression L1 : résumés générés après chaque appel d’outil
Compression L2 : mise à jour du graphe de tâches Mermaid
Compression L3 : nettoyage agressif des anciens messages lorsque le contexte atteint environ 80 %

Si la fenêtre approche d’un niveau critique (environ 95 %), une compression d’urgence réduit rapidement la taille du contexte pour revenir à un niveau plus sûr.

Résultats de benchmarks rapportés

Tencent indique plusieurs améliorations observées lors de ses tests internes. Ces chiffres doivent être considérés comme des résultats déclarés par l’éditeur, et non comme des benchmarks indépendants.

WideSearch

taux de réussite : 33 % → 50 % (≈ +51,5 % relatif)
tokens utilisés : 221,31 M → 85,64 M (−61,38 %)

SWE‑bench

succès : 58,4 % → 64,2 %
tokens : 3474,1 M → 2375,4 M (−33,09 %)

AA‑LCR

succès : 44,0 % → 47,5 %
tokens : 112,0 M → 77,3 M (−30,98 %)

PersonaMem

précision : environ 48 % → 76 % après ajout du système de mémoire.

Tencent mentionne également 1 540 tâches de test couvrant génération de code, recherche web, analyse d’articles et workflows complexes. Les taux de complétion auraient augmenté de 12 % à 35 %, tandis que la consommation de tokens aurait chuté de 33 % à 64 % selon les scénarios.

Ce qui a changé entre le lancement d’avril et la version open source du 14 mai

Le projet a évolué en deux étapes principales en 2026.

Avril 2026

lancement du système de mémoire long terme
introduction de l’architecture en quatre couches
amélioration mesurée sur le benchmark PersonaMem

14 mai 2026

publication du stack complet en open source
ajout du système de compression du contexte à court terme
mise en avant du mécanisme Context Offloading + Mermaid Task Canvas

Autrement dit, la première version mettait surtout l’accent sur la mémoire persistante, tandis que la version open source cible davantage la gestion des tâches longues et gourmandes en contexte.

Intégrations avec des frameworks d’agents

Tencent indique que le moteur peut être intégré dans plusieurs frameworks d’agents existants.

Exemples mentionnés :

OpenClaw, où Agent Memory peut fonctionner comme plugin d’amélioration de mémoire
Hermes Gateway / Hermes Agent, avec déploiement possible via Docker pour Hermes Gateway 0.3.4 ou plus récent

Ces intégrations permettent d’ajouter des capacités de mémoire avancées sans reconstruire entièrement l’architecture d’un agent.

Pourquoi cette technologie compte dans la course aux agents IA

À mesure que les agents IA passent du stade de démonstration à celui d’outils réels — assistants de programmation, agents de recherche, automatisation d’entreprise — le coût et la gestion du contexte deviennent un enjeu majeur.

Les longues chaînes d’actions peuvent rapidement :

augmenter les coûts liés aux tokens
diluer l’attention du modèle
faire perdre l’état de la tâche

L’approche de Tencent tente de résoudre ces deux problèmes en même temps :

réduire les coûts grâce à une compression intelligente du contexte
améliorer la fiabilité grâce à une représentation structurée des tâches

Si ces résultats se confirment dans des tests indépendants, des systèmes comme TencentDB Agent Memory pourraient devenir une brique d’infrastructure importante pour les agents IA autonomes.

Pour l’instant, cependant, la plupart des gains annoncés proviennent des tests internes de Tencent, et leur validation à grande échelle reste encore à observer.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Rechercher et vérifier les faits avec Studio Global AI

Les gens demandent aussi

Câu trả lời ngắn gọn cho "TencentDB Agent Memory : comment Tencent veut rendre les agents IA plus efficaces et moins coûteux" là gì?

Tencent Cloud a open‑sourcé TencentDB Agent Memory, un moteur de mémoire pour agents IA capable de réduire la consommation de tokens jusqu’à 61 % dans certaines tâches longues.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Tencent affirme des gains de performance sur plusieurs benchmarks comme WideSearch, SWE‑bench et PersonaMem, mais ces résultats proviennent de tests internes.

Sources

← Back to Trending