不再依赖人工设计,让模型真正学会管理记忆。
来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架——
Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。

在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。
不同于MIRIX、MemGPT等依赖prompts和instructions的传统方案,Mem-α采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略。
如何做到的呢?
大语言模型(LLM)智能体受限于有限的上下文窗口,这使得外部记忆系统对于长期信息理解变得至关重要。
即使像GPT-4.1这样支持100万tokens的模型,在长期交互中也会随着窗口增长而导致成本激增和延迟增加。
当前的记忆增强智能体通常依赖预定义的指令和工具来进行记忆更新。
然而,语言模型往往缺乏决定存储哪些信息、如何结构化组织以及何时更新的能力——尤其是当记忆系统变得更加复杂时。
这种局限性导致了次优的记忆构建和信息丢失,严重影响了智能体在长期交互中的表现。

如上图所示,在没有强化学习的情况下,模型在管理记忆系统时会出现明显的错误:核心记忆没有更新导致重要信息丢失,语义记忆中只保存了单一条目造成信息损失。
而经过Mem-α训练后的模型能够正确地在核心记忆、情景记忆和语义记忆中存储相应信息,实现全面的记忆管理。
Mem-α的核心贡献在于将记忆构建问题转化为一个可通过强化学习优化的序列决策问题。
与以往依赖监督学习或手工规则的方法不同,Mem-α让智能体在处理信息流的过程中自主探索最优的记忆管理策略,并通过下游任务表现直接获得反馈。这种端到端的优化方式使得模型能够学习到真正有效的记忆构建策略。

如上图所示,Mem-α将记忆构建建模为顺序决策过程。智能体依次处理信息块,决定执行哪些记忆操作,处理完成后利用构建的记忆系统回答问题。

为了展示Mem-α框架的有效性,研究团队设计了一个包含三种记忆类型的复杂记忆系统,灵感来源于认知科学中的记忆分类理论:

每种记忆类型支持插入、更新、删除操作。智能体需要学习在适当时机选择合适的工具和记忆类型。
Mem-α的训练数据集的构建思路来源于MemoryAgentBench中的四个维度:
本研究聚焦于前三个维度,排除了冲突解决维度。这是因为目前缺乏真实的评估基准——现有的冲突解决数据集主要是合成的,未能充分捕捉真实世界的复杂性。
研究团队收集并整理了来自不同源头的八个数据集,处理到统一的范式,最后构造了一个完善的数据集并保证与MemoryAgentBench的测试集没有交织,涵盖了以上的前三个维度进行训练。
Mem-α在30k tokens上训练,在验证集(验证集也是<30k tokens的)上的效果如下:

在测试集上的效果如下:

四个关键发现:

实验对比了Qwen3-4B在强化学习训练前后的表现。训练前,模型在使用复杂记忆系统时表现不佳,平均准确率仅为38.9%,且经常出现工具使用错误。
经过Mem-α训练后,同一模型的性能提升到64.2%,展现出正确的记忆管理行为。
Mem-α证明了当涉及LLM智能体的记忆管理时,学习胜过工程。
传统上被视为需要精心工程化的系统组件,实际上可以通过端到端的学习得到优化,未来,能够构建更智能、更自适应的AI系统。
论文链接:https://arxiv.org/abs/2509.25911
代码仓库:https://github.com/wangyu-ustc/Mem-alpha
开源模型:https://huggingface.co/YuWangX/Memalpha-4B
训练数据集:https://huggingface.co/datasets/YuWangX/Memalpha
测试数据集: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench
文章来自于“量子位”,作者“Mem-α团队”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0