国内外AI大厂重押, 初创梭哈, 谁能凭记忆成为下一个DeepSeek?

机器之心报道

「记忆」会是引爆新一轮AI浪潮的最后一块拼图吗？

如果时间往前推半年或四五个月，业界对于这一问题可能都是疑惑、不解：彼时DeepSeek将大模型推理能力推至高潮引起的余波仍在蔓延，Manus在全球范围内开启通用AIAgent新叙事，人们正沉浸在技术和应用双面开花带来的热闹、狂欢中……「记忆」，有什么好说的？

然而时至今日，推理已然成为各大模型标配，「百Agent混战」的背后，「通用Agent」一席仍旧空缺。技术演进曲线的放缓和爆发式应用到来的「遥遥无期」，开始让业界意识到，下一轮AI智能提升的关键在于，让AI能够像人类一样持续学习积累经验、适应新任务而不遗忘旧知识，同时实现长上下文的高效理解。

换句话说，就是让大模型拥有像人类一样的「记忆」能力。或许有人会问，当前大模型似乎依靠长文本、外部数据库已经有「记忆」？

是，也不是。如果按照业界呼唤的「类人记忆」这一范畴来看，现在我们所讨论的「记忆」，是指大模型能够具备人类对记忆的组织、检索、应用方式，是一种相较于当前大模型「短期记忆」的「长期记忆」或「终身记忆」。

其实，从国内外大模型从业者的一些操作中也可以感知到「记忆」在业界的「变热」，尤其是刚刚过去的8月：

8月12日，Anthropic宣布旗下聊天机器人Claude具有记忆功能，对话中可根据搜索过去对话，在新的聊天中寻找及引用相关资讯，让双方能够无缝地持续讨论，「不必每次都从头开始」。

随后13日，谷歌宣布Gemini也已配备记忆能力，且支持跨越多次对话，从用户交流中提炼关键细节和偏好，并在下一次交互时主动调用，让对话更自然、更连贯。

8月14日，字节跳动Seed团队发布M3-Agent系统，首次让AI具备了类似人类的长期记忆和推理能力，且不再仅限于文本，已然扩展到视频、音频等多模态中。

8月20日，OpenAICEOSamAltman在发布GPT-5后，谈及GPT-6的设计愿景时提到，他希望未来的ChatGPT版本能够让用户定义语气和个性，而其中关键就在于「记忆」，这将是GPT-6的重点所在。

其实早在去年2月的时候，OpenAI已经在ChatGPT上线记忆功能。

而今年4月，马斯克的xAI也宣称Grok已经能够记住多轮对话内容。

最新的消息是，又有一个玩家「跑步入场」——MistralAI，宣布开始引入「记忆」系统，已与20多个由MCP提供支持的企业平台集成，试图通过记忆来记住重要的事情……

越来越多的玩家开始入局、押注「记忆」。基于此，机器之心与业界从业者进行了交流，我们发现：围绕「记忆」的研究将是接下来大模型的新方向，而谁能率先让大模型拥有像人类一样的「记忆」能力，谁就掌握了主动权。

「记忆」能力，是此刻AI技术侧和应用侧的双重诉求

虽然国内外AI厂商最近纷纷扎堆推出「记忆」相关产品，但实际上，在学术界，意识到应该将AI与记忆相结合的研究要开始得更早一些。

记忆张量CTO李志宇告诉机器之心，大概是从2023年年底开始的。

记忆张量是一家聚焦AgentMemory的初创企业，推出了业界首个记忆操作系统，也是业界最早关注到这一领域的研究团队之一。2024年7月，中国科学院院士鄂维南牵头主导，杨泓康、熊飞宇、李志宇等人参与研发的记忆分层大模型——Memory³（忆立方）正式发布，该模型开创性地将参数拆解为隐性记忆、显性记忆和外置记忆库，以优化推理效率并降低幻觉问题。一经发布，便引起关注，并在后续被Meta、Google等团队跟进。而大多数参与成员则是记忆张量的初始团队成员。

李志宇告诉机器之心，虽然早早开始推进「记忆」相关研究，但其实内心也并非那么笃定。

怎么理解？

回顾那一时间段，业界正沉浸在ScalingLaw是LLM第一性原理的叙事中，各大模型厂商忙着堆算力、堆数据，来换取大模型性能提升，但现实是算力匮乏，大厂可以依靠资金与资源上的累积来「大力出奇迹」，但这对许多开发基座模型的团队来说就是一个巨大成本负担，根本比不过。

基于此，团队开始思考能不能从基础理论角度把大模型再「拆开」，看看是否还有可提升空间？「如果某一时刻，当下的ScalingLaw失效，另一条Scaling路线又会是什么？」

一番研究后发现，其实没必要把所有知识（记忆）都压缩进大模型参数空间，只需把公共常识或推理能力压缩进去，而对于那些细碎知识，保证让它在需要用这条具体记忆时能够去检索、使用、与模型一起做推理就够了。团队便试着将模型参数记忆按照显性记忆、隐性记忆和外部记忆做分层建模，以便获得更好的性能提升。

结果很明显，「赌」对了，这是一条具有开创意义的道路，之后团队便继续沿着这一路线进行大模型「记忆」能力的探索……

而腾讯AILab专家研究员王琰开始感知到大模型「记忆」能力的重要，也是在2023年年底，不同的是，他是从应用侧感知到的。

腾讯AILab是腾讯推出的企业级AI实验室，成立于2016年4月，致力于推动AGI发展，研究方向涵盖NLP、语音、CV、游戏等多个领域。据了解，AILab是业界最早进行利用RAG提升模型「记忆」能力的研究团队之一，相关研究曾获得2021年ACL杰出论文奖。

王琰告诉机器之心，当时他正在开发一款游戏Agent，其中最重要的一个功能是「陪伴」，比如玩家玩了一年的游戏，那Agent就应该记得玩家这一年在游戏里所发生的事情，这就意味着Agent需要「终身记忆」。但明显，当时模型的「记忆」能力根本达不到这一诉求。

那时大模型应用主要集中在对话产品，一种主流观点认为，长文本（LongContext）就是一切，或将是通往AGI的最佳路径。「如果我们有无限长的LongContext，我们就能解决任何问题」，是大多数业内人士所坚信的。

但在游戏Agent的研究实践上，让王琰意识到不是这么回事。

LongContext生成方面的研究主要集中在长度外推和扩充窗口长度上，其主要思想是在模型的KVstates中尽可能多且有效地储存上文信息，并让模型在推理时候尽可能准确用好这些信息。

但这种理念仅适用于对话场景，因为对话场景的state（状态）不会改变，可Agent不同，Agent场景的一个特点就是场景周围环境随时变化，即state随时变化，如果这种变化以LongContext形式注入，ContextWindow分分钟就要「爆炸」。

当然，扩ContextWindow也是一种有效办法，可更长的上下文意味着更大的显存消耗，「这是个根本无法承受的成本。」

意识到这一点，王琰开始探索新方法。2024年1月，新方法初见成效。

这是一种全新思路：将上文信息储存在模型参数，而非KVcache中，来降低对KVstates的依赖。这些用来储存上文信息的参数被集中在一个临时的Lora模块（Temp-Lora）中，推理过程不断拿模型生成的token训练这一模块，以实现历史信息存储。

结合他在游戏Agent的开发上来看，这是一个参数化记忆，用一个Lora模块来记载Agent与玩家过去的交互历史，让模型实现类似「终身记忆」的能力。

很明显，在获悉早期从业者之所以进行「记忆」能力相关研究的「缘起」后，对于当下各大模型厂商不断重申「记忆」的重要性也就不难理解：这是技术侧和应用侧的双重诉求。

从技术层面来看，如果说2023年年底，只是少数人担心ScalingLaw会失效，那么现在不管是OpenAI还是其他AI大厂都已经清楚认识到，过去几年通过堆算力、参数量来获得性能提升的「边际效应」已经明显下降，即便再去堆成倍的算力，都拿不到10%甚至5%的能力突破，仅仅依靠「大」已经无法把模型性能，或者在应用场景的能力进行比较好的提升。他们同样也想要去寻找新的技术范式。

「技术本身的瓶颈导致大家开始寻找新方向。」李志宇说道。

他认为，从这个角度来看，如果用人类来类比大模型，人与动物的不同在于，一是人会制造和使用工具，这对应的是（模型）MCP这一层的能力。另外一点是，人能够总结、思考和反馈，并且形成记忆，然后让「记忆」在人类整个文明传承过程当中，被不断建模、重构以获得进一步性能提升。如今看来，模型工具层面已经做完了，而且更多是横向过程（MCP层级），接下来大家想要突破的可能就是「记忆」这个口子了。

从应用层面来看，当前AIAgent已是大模型主流叙事，数量上「百Agent」竞相狂奔的盛景已是事实。能力上，大家对于模型本身的要求越来越高，不再是最开始仅作为单一工具去解决瞬时问题，而是把AI当成合作伙伴或秘书去解决更为长期的问题，这就需要它能够记住之前的交互与反馈。

「这种情况下，模型终身记忆，而且是不依赖ContextWindow的终身记忆就成为非常重要的事情了。」王琰说道。

Agent想要取得突破性进展，「记忆」是必不可少的一个环节。

技术尚未收敛，路径抉择不一

当前，随着市场上开始重视模型「记忆」能力的大模型厂商越来越多，「记忆」前面的限定词也变得五花八门，「终身记忆」「持久记忆」「全局记忆」「个性化记忆」等术语不断涌现。

在李志宇看来，这是因为单纯谈「记忆」本身对于普通用户的理解成本较高，所以各大厂商在命名时会在前面加限定词，一定程度上也代表了各自的技术侧重点不同。

比如，OpenAI提及的是「全局记忆」，更像是对应于Anthropic提出的「局部记忆」概念的映射。前者认为记忆应该无处不在，在用户可能用到的地方随时随地出现，所以「全局记忆」是从覆盖面上考虑的，而「终身或持久记忆」是基于时间线角度的考量。归根究底，「记忆」能力的重点在于如何把大模型记忆本身或AI应用的记忆本身这件事情做好。

目前来看，当前业界对于大模型「记忆」能力的研究主要有这样几种路线。

一是参数化记忆，是架构层面，基于基座模型本身的驱动融合记忆创新，去解决记忆问题。目标是让模型从参数层面自己能够区分哪些是需要被作为「记忆」去检索和建模，然后在推理过程中融合到前向推理过程中。

参数化记忆也分两种，一种是直接基于目前模型主流的Transformer架构展开研究，比如Temp-Lora方法，就是用Lora模块来记录过去的对话历史。

另外一种是采用非Transformer架构。比如，谷歌推出Titans架构，提出三级记忆（短期/长期/持久记忆），用「惊讶度」机制动态更新记忆；Meta的研究突破在于将Transformer中的前馈网络（FFN）替换为记忆层，并保持其他部分不变；国内的非Transformer架构RWKV等。

李志宇认为，这一路线的好处在于整体理论上限非常高，（做得好的话）可能突破现有的模型「记忆」，对于时间、人物、连续性的感知问题都能够有较好解决方案。但问题也很明显，「研发成本非常高，短期内落地难度比较大。」

王琰持相似看法。在他看来，当前市场上有多种非Transformer模型架构宣称自己有「长期记忆」能力，但问题在于这种「长期」局限于架构，就像人脑容量一样，是有上限的。这就导致这些所谓的「长期记忆」模型在长期记忆上「打不过」只有短期记忆的Transformer，因为Transformer可以通过堆硬件来解决，实现「长期记忆」。

二是上下文记忆（上下文工程），即将模型需要知道的信息以prompt方式放在ContextWindow中，当模型开始推理之前可以先浏览一遍获取相应信息。Manus是一家典型将上下文工程做到极致的公司，近期研究中不断强调在Agent交互过程中更好地做KVcache管理（KVcache管理本质上就是一种记忆管理形式），尽可能让不同Agent之间能够复用一些「记忆」。

但局限性也很明显，上下文工程是基于人类智慧来指挥，那当模型推理出错时就容易混淆，到底是上下文工程出错还是模型本身出错？当前并没有一个自动化机制来评判，所以最后上下文工程容易变成纯粹的工程事情。

三是外部数据库/RAG，即将信息存储在模型外部数据库中（如向量数据库），在需要时通过RAG将最相关内容取回，注入到当前ContextWindow中，为模型提供决策依据。

从研究上来看，现有RAG最终目的是让模型每次搜索都一定返回正确结果，可即便是人类用搜索引擎也会经常修改关键词，所以难以保证搜索时能够找到自己想要的内容。为此，就不得不修改检索算法，但这也并非易事，甚至需要扩大团队规模来专门做这件事，最后往往变成大家都在做RAG，并非模型本身，本末倒置。而且这显然也无法通过训练来实现模型整体性能提升，所以虽然看似工程上广泛使用，但上限低。

很明显，每一条路线都有各自优势与局限性，短期内并没有一个最优解，有些玩家甚至选择的不是单一路线，而是探索多种路线的融合。

王琰认为，这是由于当前技术路线还未收敛，按照各自路线进行探索与改进，都会带来一定程度上模型「记忆」能力的提升。因为大家诉求一致，「能够用尽量少的代价来记忆得尽量牢。」王琰说道，根据这一诉求，未来模型「记忆」能力无非就是在围绕记忆的压缩比与保真度这两个事情在做。

同样，李志宇也这样认为，当前有关模型「记忆」的研究还处于早期阶段，各种路线的解题思路其实都是围绕如何用空间换时间，或者如何在有限的空间内提高模型整体的推理和应用效率。

据了解，目前王琰及其所在团队正全力攻关具有InferenceTimeTraining能力的新型模型架构，即在推理过程中不断的把过去历史储存到模型的参数区中，也就是参数化记忆。

而相较于常规路线划分，李志宇更倾向于把上下文工程与RAG+外部数据库这种形式归为一类，因为它们更多是从应用层面解决记忆机制实现问题，且本质都是一种「外挂记忆」，上限比较明显。

路线上则选择了一条折中方式，即将目前基模能落地的一部分加上应用工程创新能落地的一部分，两者相互结合，打造出一套能够解决问题的记忆框架，这也正是当前记忆张量在做的事情，并推出面向大模型的开源记忆操作系统MemOS。

谁能凭借「记忆」再造一个「DeepSeek」？

虽然关于模型「记忆」能力的路线划分复杂、多样，但其实从玩家来看，当前业界主要有两类玩家。

一类是像OpenAI、Anthropic、Google这类AI厂商，他们有自己ToC向Chat服务，在这一类的服务里面，他们更多是想通过引入「长短期记忆」能力来达成个性化服务目标。

当然，可能各个厂商所要达成个性化能力本身会有差异，像是OpenAI强调「全局记忆」，Anthropic强调的是「局部记忆」按需使用，但本质诉求更多是想借助「记忆」的个性化能力来留住用户。

另一类是「记忆」的中间件服务商，类似于Mem0或者记忆张量的MemOS，以及Zep等开源的记忆框架，它们更多是扮演大模型到应用层的中间件角色，面向更为广泛的开发者，希望开发者和相关应用产品能够体会到，类似于OpenAI在自己产品里面展现的「记忆」能力增强所带来的体验和性能变化。

而围绕着两类玩家在模型「记忆」能力上的诉求不同，他们各自的商业模式也或将发生变化。

比如对于OpenAI这样的大厂来说，他们的目标是让用户在自家的APP类产品上高频使用、形成越多越多的「记忆」，继而在自家APP上沉淀、形成粘性，之后一旦用户绑定，可能就很难再挪到其他地方去。从这个角度来说，他们希望用户能相对独立、在自家场景池子里沉淀出「独家记忆」。

而对于初创企业来说，他们希望更多的开发者或企业能够快速去具备「记忆」能力，同时让大家形成一个可共享的记忆中枢，随着越来越多的APP联合去做记忆的共享、中枢的管理，就会形成对原有中心化的「去中心化」，同时也会形成一个新的中心化记忆平台。

这种记忆平台或许能够立体刻画这个用户的所有事情，比如对用户在工作场景、生活场景的经历、偏好等，有一个立体记忆能力，而这种记忆是能够增强他在使用任何与AI相关APP上的体验。

MistralAI的最新动作，无疑是这类玩家的一个典型代表，宣布免费、大幅扩展其企业级业务平台LeChat，并已经和20多家平台集成。而这一动作也被视为是在试图通过提供先进的「记忆」功能和广泛的第三方集成，来打破已有的AI市场竞争格局……

由此看来，AI战场已经升级，在新一轮围绕「记忆」能力构建的竞赛中，各类玩家是一个互相角力的状态，战况胶着，谁都有可能「跑」出来。而前面也已经提到，「记忆」能力，是模型技术层面和应用层的双重诉求，一旦取得突破性进展，那么无疑将再现「DeepSeek时刻」「Manus时刻」。

而从当前AI「记忆」能力的发展状况来看，目前留给各大玩家的时间也不是「很多」。

按照李志宇的理解，如果将模型「记忆」能力按照抽取、存储、更新、调度、应用、治理六个维度划分，那我们可能距离真正能够在大范围去用，并且大家能够感受到它给我们生活带来无处不在变化的话，可能还需要一到两年的时间。

而如果想要达到治理层面，也就是解决模型「记忆」本身的幻觉问题、隐私保障，甚至立法等问题的话，至少可能还要三到五年的时间。

未来，到底是谁将再现「DeepSeek时刻」，目前看来是「乾坤未定，一切皆有可能是黑马」。