Как TencentDB Agent Memory делает долгие задачи ИИ‑агентов дешевле и надежнее
Tencent открыла исходный код TencentDB Agent Memory — системы памяти для ИИ‑агентов, которая снижает потребление токенов в длинных задачах до 61%. Архитектура включает четыре уровня долгосрочной памяти и механизм Context Offloading + Mermaid Task Canvas для сжатия активного контекста.
What is Tencent Cloud’s newly open-sourced TencentDB Agent Memory, how does its layered memory architecture and “Context Offloading + MermaiTencentDB Agent Memory uses layered memory and a structured task graph to compress agent context and reduce token consumption.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What is Tencent Cloud’s newly open-sourced TencentDB Agent Memory, how does its layered memory architecture and “Context Offloading + Mermai. Article summary: TencentDB Agent Memory is Tencent Cloud’s open-source memory layer for AI agents: it combines long-term personalized memory with short-term context compression so agents can run longer tasks without stuffing every tool r. Topic tags: general, general web. Reference image context from search candidates: Reference image 1: visual subject "3 weeks ago - Tencent Cloud’s Cube Sandbox goes fully open source with five technical breakthroughs, providing a production-grade foundation for AI Agent deployment at industrial s" source context "Tencent Cloud Cube Sandbox Goes Fully Open-Source, with Five Major Breakthroughs Enabling Large-Scale Agent Deployment -" Reference
openai.com
ИИ‑агенты — от ассистентов для программирования до исследовательских ботов — быстро упираются в фундаментальное ограничение: размер контекстного окна модели. Когда агент выполняет длинную цепочку действий (поиск в интернете, анализ документов, запуск инструментов), в контекст начинают накапливаться журналы, результаты запросов и промежуточные шаги. Это увеличивает стоимость вычислений и может ухудшать качество рассуждений.
В мае 2026 года Tencent Cloud открыла исходный код TencentDB Agent Memory — системы памяти для AI‑агентов, которая призвана решить эту проблему. Она сочетает многоуровневую долговременную память с механизмом Context Offloading + Mermaid Task Canvas, позволяя хранить подробные данные вне контекста модели и оставлять внутри только компактную структурированную информацию. В тестах Tencent такой подход сократил потребление токенов до 61% и повысил успешность выполнения длинных задач.
Что такое TencentDB Agent Memory
TencentDB Agent Memory — это open‑source‑движок памяти для агентных систем ИИ. Проект распространяется по лицензии MIT и предназначен для сценариев с длинными многошаговыми задачами.
Система объединяет два ключевых типа памяти:
долговременную память, которая сохраняется между сессиями;
краткосрочную память, которая сжимает текущий контекст во время выполнения задач.
Это позволяет агентам:
помнить предпочтения пользователя;
сохранять состояние задач в длинных цепочках действий;
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Каков краткий ответ на вопрос «Как TencentDB Agent Memory делает долгие задачи ИИ‑агентов дешевле и надежнее»?
Tencent открыла исходный код TencentDB Agent Memory — системы памяти для ИИ‑агентов, которая снижает потребление токенов в длинных задачах до 61%.
Какие ключевые моменты необходимо проверить в первую очередь?
Tencent открыла исходный код TencentDB Agent Memory — системы памяти для ИИ‑агентов, которая снижает потребление токенов в длинных задачах до 61%. Архитектура включает четыре уровня долгосрочной памяти и механизм Context Offloading + Mermaid Task Canvas для сжатия активного контекста.
Что мне делать дальше на практике?
По данным Tencent, система улучшает результаты бенчмарков WideSearch, SWE‑bench и PersonaMem, хотя показатели пока основаны на внутренних тестах.
уменьшать объём необработанных данных, которые передаются в модель.
Вместо того чтобы постоянно отправлять в контекст каждый лог, веб‑страницу или результат инструмента, система превращает эти данные в структурированную память и краткие сводки.
Четырёхуровневая архитектура долговременной памяти
В основе системы лежит четырёхуровневая модель памяти, которая постепенно превращает сырые диалоги в структурированные знания.
L0 — слой исходного диалога
Хранит полный журнал разговоров и взаимодействий агента без изменений.
L1 — слой атомарной памяти
Извлекает из диалогов отдельные факты: предпочтения пользователя, ограничения, выводы предыдущих шагов.
L2 — слой сценарных резюме
Группирует память по задачам или сценариям, чтобы агент мог распознавать шаблоны действий.
L3 — слой пользовательского профиля
Формирует компактный профиль пользователя с устойчивыми привычками и предпочтениями.
В результате информация постепенно преобразуется из длинных диалогов в повторно используемое структурированное знание. Со временем агент может опираться на прошлый опыт, а не вычислять всё заново.
Главная идея: Context Offloading + Mermaid Task Canvas
Основная экономия ресурсов достигается благодаря тому, как система работает с краткосрочной памятью во время длинных задач.
Context Offloading
После вызова инструмента — например, загрузки веб‑страницы или выполнения кода — полный результат сохраняется во внешнем хранилище, а в контексте модели остаётся только компактное резюме или ссылка.
Это предотвращает ситуацию, когда большие документы, журналы или результаты инструментов навсегда занимают место в prompt.
Mermaid Task Canvas
Вместо длинной текстовой истории система хранит ход задачи в виде структурированного графа задач на языке Mermaid — текстовом формате для описания диаграмм, широко используемом в технической документации.
Такой «холст задачи» работает как карта процесса:
узлы обозначают шаги задачи;
связи показывают зависимости;
каждый узел содержит краткое состояние или резюме.
Модель видит структуру задачи, а не весь поток сообщений. Благодаря этому агент может отслеживать сложные процессы, используя значительно меньше токенов.
Tencent объясняет это простой аналогией: журналы фиксируют всё подряд, а карта помогает ориентироваться. Mermaid‑граф выполняет роль такой карты для агента.
Адаптивное сжатие контекста
Система также динамически сжимает контекст по мере его заполнения, отслеживая «уровень воды» в контекстном окне.
Типичная логика работы:
L1 — быстрые резюме: результаты инструментов кратко суммируются сразу после выполнения.
L2 — обновление карты задачи: граф Mermaid асинхронно обновляется, фиксируя структуру процесса.
L3 — глубокое сжатие: когда заполнение контекста достигает примерно 80%, старые сообщения агрессивно сокращаются или удаляются.
Если использование контекста приближается к 95%, запускается аварийное сжатие, чтобы освободить место и вернуть окно в безопасный диапазон.
Результаты тестов, о которых сообщает Tencent
Tencent опубликовала ряд результатов при интеграции Agent Memory в агентные фреймворки. Эти показатели основаны на внутренних экспериментах компании.
WideSearch
успешность: 33% → 50% (рост на 51,52%)
токены: 221,31 млн → 85,64 млн (снижение на 61,38%)
SWE‑bench
успешность: 58,4% → 64,2%
токены: 3474,1 млн → 2375,4 млн (–33,09%)
AA‑LCR
успешность: 44,0% → 47,5%
токены: 112,0 млн → 77,3 млн (–30,98%)
PersonaMem
точность выросла примерно с 48% до 76% после добавления системы памяти.
Также сообщается о тестах на 1 540 задачах (генерация кода, поиск в интернете, анализ документов и сложные многошаговые сценарии). В этих экспериментах завершение задач улучшилось на 12–35%, а потребление токенов снизилось на 33–64%.
Чем отличается релиз 14 мая от более раннего запуска
Сервис появился ранее в 2026 году, но его фокус изменился между релизами.
Апрельский запуск
представлен сервис долговременной памяти;
описана четырёхуровневая архитектура;
основной акцент — сохранение знаний между сессиями.
Полный open‑source релиз 14 мая
опубликован полный стек проекта под лицензией MIT;
добавлена система сжатия краткосрочной памяти;
центральной технологией стала связка Context Offloading + Mermaid Task Canvas.
Иными словами, ранняя версия была сосредоточена на постоянной памяти, а майский релиз — на решении проблемы переполнения контекста в длинных задачах.
Интеграции с агентными фреймворками
По данным Tencent, система уже поддерживает несколько агентных платформ.
Среди них:
OpenClaw — может работать как плагин для расширения памяти;
Hermes Gateway / Hermes Agent — поддерживается запуск через Docker для версии Hermes Gateway 0.3.4 и выше.
Это позволяет разработчикам добавить долговременную память и сжатие контекста без полной переработки архитектуры агента.
Почему это важно для развития AI‑агентов
По мере того как агенты переходят из демонстрационных проектов в реальные приложения — программирование, исследовательские ассистенты, корпоративная автоматизация — стоимость контекста становится ключевым ограничением. Длинные цепочки вызовов инструментов быстро увеличивают расход токенов и усложняют рассуждения модели.
Подход Tencent пытается решить сразу две проблемы:
стоимость — уменьшение токенов снижает эксплуатационные расходы;
надёжность — структурированная память помогает агентам не терять направление в длинных рабочих процессах.
Если эти результаты подтвердятся независимыми тестами, подобные системы памяти могут стать важным инфраструктурным слоем для следующего поколения автономных AI‑агентов.
Пока же опубликованные показатели следует рассматривать как данные самой компании, ожидающие более широкой независимой проверки.
Comments
0 comments