热搜词: 贝特瑞

国内外AI大厂重押, 初创梭哈, 谁能凭记忆成为下一个DeepSeek?

机器之心报道

「记忆」会是引爆新一轮AI浪潮的最后一块拼图吗?

如果时间往前推半年或四五个月,业界对于这一问题可能都是疑惑、不解:彼时DeepSeek将大模型推理能力推至高潮引起的余波仍在蔓延,Manus在全球范围内开启通用AIAgent新叙事,人们正沉浸在技术和应用双面开花带来的热闹、狂欢中……「记忆」,有什么好说的?

然而时至今日,推理已然成为各大模型标配,「百Agent混战」的背后,「通用Agent」一席仍旧空缺。技术演进曲线的放缓和爆发式应用到来的「遥遥无期」,开始让业界意识到,下一轮AI智能提升的关键在于,让AI能够像人类一样持续学习积累经验、适应新任务而不遗忘旧知识,同时实现长上下文的高效理解。

换句话说,就是让大模型拥有像人类一样的「记忆」能力。或许有人会问,当前大模型似乎依靠长文本、外部数据库已经有「记忆」?

是,也不是。如果按照业界呼唤的「类人记忆」这一范畴来看,现在我们所讨论的「记忆」,是指大模型能够具备人类对记忆的组织、检索、应用方式,是一种相较于当前大模型「短期记忆」的「长期记忆」或「终身记忆」。

其实,从国内外大模型从业者的一些操作中也可以感知到「记忆」在业界的「变热」,尤其是刚刚过去的8月:

8月12日,Anthropic宣布旗下聊天机器人Claude具有记忆功能,对话中可根据搜索过去对话,在新的聊天中寻找及引用相关资讯,让双方能够无缝地持续讨论,「不必每次都从头开始」。

随后13日,谷歌宣布Gemini也已配备记忆能力,且支持跨越多次对话,从用户交流中提炼关键细节和偏好,并在下一次交互时主动调用,让对话更自然、更连贯。

8月14日,字节跳动Seed团队发布M3-Agent系统,首次让AI具备了类似人类的长期记忆和推理能力,且不再仅限于文本,已然扩展到视频、音频等多模态中。

8月20日,OpenAICEOSamAltman在发布GPT-5后,谈及GPT-6的设计愿景时提到,他希望未来的ChatGPT版本能够让用户定义语气和个性,而其中关键就在于「记忆」,这将是GPT-6的重点所在。

其实早在去年2月的时候,OpenAI已经在ChatGPT上线记忆功能。

而今年4月,马斯克的xAI也宣称Grok已经能够记住多轮对话内容。

最新的消息是,又有一个玩家「跑步入场」——MistralAI,宣布开始引入「记忆」系统,已与20多个由MCP提供支持的企业平台集成,试图通过记忆来记住重要的事情……

越来越多的玩家开始入局、押注「记忆」。基于此,机器之心与业界从业者进行了交流,我们发现:围绕「记忆」的研究将是接下来大模型的新方向,而谁能率先让大模型拥有像人类一样的「记忆」能力,谁就掌握了主动权。

「记忆」能力,是此刻AI技术侧和应用侧的双重诉求

虽然国内外AI厂商最近纷纷扎堆推出「记忆」相关产品,但实际上,在学术界,意识到应该将AI与记忆相结合的研究要开始得更早一些。

记忆张量CTO李志宇告诉机器之心,大概是从2023年年底开始的。

记忆张量是一家聚焦AgentMemory的初创企业,推出了业界首个记忆操作系统,也是业界最早关注到这一领域的研究团队之一。2024年7月,中国科学院院士鄂维南牵头主导,杨泓康、熊飞宇、李志宇等人参与研发的记忆分层大模型——Memory³(忆立方)正式发布,该模型开创性地将参数拆解为隐性记忆、显性记忆和外置记忆库,以优化推理效率并降低幻觉问题。一经发布,便引起关注,并在后续被Meta、Google等团队跟进。而大多数参与成员则是记忆张量的初始团队成员。

李志宇告诉机器之心,虽然早早开始推进「记忆」相关研究,但其实内心也并非那么笃定。

怎么理解?

回顾那一时间段,业界正沉浸在ScalingLaw是LLM第一性原理的叙事中,各大模型厂商忙着堆算力、堆数据,来换取大模型性能提升,但现实是算力匮乏,大厂可以依靠资金与资源上的累积来「大力出奇迹」,但这对许多开发基座模型的团队来说就是一个巨大成本负担,根本比不过。

基于此,团队开始思考能不能从基础理论角度把大模型再「拆开」,看看是否还有可提升空间?「如果某一时刻,当下的ScalingLaw失效,另一条Scaling路线又会是什么?」

一番研究后发现,其实没必要把所有知识(记忆)都压缩进大模型参数空间,只需把公共常识或推理能力压缩进去,而对于那些细碎知识,保证让它在需要用这条具体记忆时能够去检索、使用、与模型一起做推理就够了。团队便试着将模型参数记忆按照显性记忆、隐性记忆和外部记忆做分层建模,以便获得更好的性能提升。

结果很明显,「赌」对了,这是一条具有开创意义的道路,之后团队便继续沿着这一路线进行大模型「记忆」能力的探索……

而腾讯AILab专家研究员王琰开始感知到大模型「记忆」能力的重要,也是在2023年年底,不同的是,他是从应用侧感知到的。

腾讯AILab是腾讯推出的企业级AI实验室,成立于2016年4月,致力于推动AGI发展,研究方向涵盖NLP、语音、CV、游戏等多个领域。据了解,AILab是业界最早进行利用RAG提升模型「记忆」能力的研究团队之一,相关研究曾获得2021年ACL杰出论文奖。

王琰告诉机器之心,当时他正在开发一款游戏Agent,其中最重要的一个功能是「陪伴」,比如玩家玩了一年的游戏,那Agent就应该记得玩家这一年在游戏里所发生的事情,这就意味着Agent需要「终身记忆」。但明显,当时模型的「记忆」能力根本达不到这一诉求。

那时大模型应用主要集中在对话产品,一种主流观点认为,长文本(LongContext)就是一切,或将是通往AGI的最佳路径。「如果我们有无限长的LongContext,我们就能解决任何问题」,是大多数业内人士所坚信的。

但在游戏Agent的研究实践上,让王琰意识到不是这么回事。

LongContext生成方面的研究主要集中在长度外推和扩充窗口长度上,其主要思想是在模型的KVstates中尽可能多且有效地储存上文信息,并让模型在推理时候尽可能准确用好这些信息。

但这种理念仅适用于对话场景,因为对话场景的state(状态)不会改变,可Agent不同,Agent场景的一个特点就是场景周围环境随时变化,即state随时变化,如果这种变化以LongContext形式注入,ContextWindow分分钟就要「爆炸」。

当然,扩ContextWindow也是一种有效办法,可更长的上下文意味着更大的显存消耗,「这是个根本无法承受的成本。」

意识到这一点,王琰开始探索新方法。2024年1月,新方法初见成效。

这是一种全新思路:将上文信息储存在模型参数,而非KVcache中,来降低对KVstates的依赖。这些用来储存上文信息的参数被集中在一个临时的Lora模块(Temp-Lora)中,推理过程不断拿模型生成的token训练这一模块,以实现历史信息存储。

结合他在游戏Agent的开发上来看,这是一个参数化记忆,用一个Lora模块来记载Agent与玩家过去的交互历史,让模型实现类似「终身记忆」的能力。

很明显,在获悉早期从业者之所以进行「记忆」能力相关研究的「缘起」后,对于当下各大模型厂商不断重申「记忆」的重要性也就不难理解:这是技术侧和应用侧的双重诉求。

从技术层面来看,如果说2023年年底,只是少数人担心ScalingLaw会失效,那么现在不管是OpenAI还是其他AI大厂都已经清楚认识到,过去几年通过堆算力、参数量来获得性能提升的「边际效应」已经明显下降,即便再去堆成倍的算力,都拿不到10%甚至5%的能力突破,仅仅依靠「大」已经无法把模型性能,或者在应用场景的能力进行比较好的提升。他们同样也想要去寻找新的技术范式。

「技术本身的瓶颈导致大家开始寻找新方向。」李志宇说道。

他认为,从这个角度来看,如果用人类来类比大模型,人与动物的不同在于,一是人会制造和使用工具,这对应的是(模型)MCP这一层的能力。另外一点是,人能够总结、思考和反馈,并且形成记忆,然后让「记忆」在人类整个文明传承过程当中,被不断建模、重构以获得进一步性能提升。如今看来,模型工具层面已经做完了,而且更多是横向过程(MCP层级),接下来大家想要突破的可能就是「记忆」这个口子了。

从应用层面来看,当前AIAgent已是大模型主流叙事,数量上「百Agent」竞相狂奔的盛景已是事实。能力上,大家对于模型本身的要求越来越高,不再是最开始仅作为单一工具去解决瞬时问题,而是把AI当成合作伙伴或秘书去解决更为长期的问题,这就需要它能够记住之前的交互与反馈。

「这种情况下,模型终身记忆,而且是不依赖ContextWindow的终身记忆就成为非常重要的事情了。」王琰说道。

Agent想要取得突破性进展,「记忆」是必不可少的一个环节。

技术尚未收敛,路径抉择不一

当前,随着市场上开始重视模型「记忆」能力的大模型厂商越来越多,「记忆」前面的限定词也变得五花八门,「终身记忆」「持久记忆」「全局记忆」「个性化记忆」等术语不断涌现。

在李志宇看来,这是因为单纯谈「记忆」本身对于普通用户的理解成本较高,所以各大厂商在命名时会在前面加限定词,一定程度上也代表了各自的技术侧重点不同。

比如,OpenAI提及的是「全局记忆」,更像是对应于Anthropic提出的「局部记忆」概念的映射。前者认为记忆应该无处不在,在用户可能用到的地方随时随地出现,所以「全局记忆」是从覆盖面上考虑的,而「终身或持久记忆」是基于时间线角度的考量。归根究底,「记忆」能力的重点在于如何把大模型记忆本身或AI应用的记忆本身这件事情做好。

目前来看,当前业界对于大模型「记忆」能力的研究主要有这样几种路线。

一是参数化记忆,是架构层面,基于基座模型本身的驱动融合记忆创新,去解决记忆问题。目标是让模型从参数层面自己能够区分哪些是需要被作为「记忆」去检索和建模,然后在推理过程中融合到前向推理过程中。

参数化记忆也分两种,一种是直接基于目前模型主流的Transformer架构展开研究,比如Temp-Lora方法,就是用Lora模块来记录过去的对话历史。

另外一种是采用非Transformer架构。比如,谷歌推出Titans架构,提出三级记忆(短期/长期/持久记忆),用「惊讶度」机制动态更新记忆;Meta的研究突破在于将Transformer中的前馈网络(FFN)替换为记忆层,并保持其他部分不变;国内的非Transformer架构RWKV等。

李志宇认为,这一路线的好处在于整体理论上限非常高,(做得好的话)可能突破现有的模型「记忆」,对于时间、人物、连续性的感知问题都能够有较好解决方案。但问题也很明显,「研发成本非常高,短期内落地难度比较大。」

王琰持相似看法。在他看来,当前市场上有多种非Transformer模型架构宣称自己有「长期记忆」能力,但问题在于这种「长期」局限于架构,就像人脑容量一样,是有上限的。这就导致这些所谓的「长期记忆」模型在长期记忆上「打不过」只有短期记忆的Transformer,因为Transformer可以通过堆硬件来解决,实现「长期记忆」。

二是上下文记忆(上下文工程),即将模型需要知道的信息以prompt方式放在ContextWindow中,当模型开始推理之前可以先浏览一遍获取相应信息。Manus是一家典型将上下文工程做到极致的公司,近期研究中不断强调在Agent交互过程中更好地做KVcache管理(KVcache管理本质上就是一种记忆管理形式),尽可能让不同Agent之间能够复用一些「记忆」。

但局限性也很明显,上下文工程是基于人类智慧来指挥,那当模型推理出错时就容易混淆,到底是上下文工程出错还是模型本身出错?当前并没有一个自动化机制来评判,所以最后上下文工程容易变成纯粹的工程事情。

三是外部数据库/RAG,即将信息存储在模型外部数据库中(如向量数据库),在需要时通过RAG将最相关内容取回,注入到当前ContextWindow中,为模型提供决策依据。

从研究上来看,现有RAG最终目的是让模型每次搜索都一定返回正确结果,可即便是人类用搜索引擎也会经常修改关键词,所以难以保证搜索时能够找到自己想要的内容。为此,就不得不修改检索算法,但这也并非易事,甚至需要扩大团队规模来专门做这件事,最后往往变成大家都在做RAG,并非模型本身,本末倒置。而且这显然也无法通过训练来实现模型整体性能提升,所以虽然看似工程上广泛使用,但上限低。

很明显,每一条路线都有各自优势与局限性,短期内并没有一个最优解,有些玩家甚至选择的不是单一路线,而是探索多种路线的融合。

王琰认为,这是由于当前技术路线还未收敛,按照各自路线进行探索与改进,都会带来一定程度上模型「记忆」能力的提升。因为大家诉求一致,「能够用尽量少的代价来记忆得尽量牢。」王琰说道,根据这一诉求,未来模型「记忆」能力无非就是在围绕记忆的压缩比与保真度这两个事情在做。

同样,李志宇也这样认为,当前有关模型「记忆」的研究还处于早期阶段,各种路线的解题思路其实都是围绕如何用空间换时间,或者如何在有限的空间内提高模型整体的推理和应用效率。

据了解,目前王琰及其所在团队正全力攻关具有InferenceTimeTraining能力的新型模型架构,即在推理过程中不断的把过去历史储存到模型的参数区中,也就是参数化记忆。

而相较于常规路线划分,李志宇更倾向于把上下文工程与RAG+外部数据库这种形式归为一类,因为它们更多是从应用层面解决记忆机制实现问题,且本质都是一种「外挂记忆」,上限比较明显。

路线上则选择了一条折中方式,即将目前基模能落地的一部分加上应用工程创新能落地的一部分,两者相互结合,打造出一套能够解决问题的记忆框架,这也正是当前记忆张量在做的事情,并推出面向大模型的开源记忆操作系统MemOS。

谁能凭借「记忆」再造一个「DeepSeek」?

虽然关于模型「记忆」能力的路线划分复杂、多样,但其实从玩家来看,当前业界主要有两类玩家。

一类是像OpenAI、Anthropic、Google这类AI厂商,他们有自己ToC向Chat服务,在这一类的服务里面,他们更多是想通过引入「长短期记忆」能力来达成个性化服务目标。

当然,可能各个厂商所要达成个性化能力本身会有差异,像是OpenAI强调「全局记忆」,Anthropic强调的是「局部记忆」按需使用,但本质诉求更多是想借助「记忆」的个性化能力来留住用户。

另一类是「记忆」的中间件服务商,类似于Mem0或者记忆张量的MemOS,以及Zep等开源的记忆框架,它们更多是扮演大模型到应用层的中间件角色,面向更为广泛的开发者,希望开发者和相关应用产品能够体会到,类似于OpenAI在自己产品里面展现的「记忆」能力增强所带来的体验和性能变化。

而围绕着两类玩家在模型「记忆」能力上的诉求不同,他们各自的商业模式也或将发生变化。

比如对于OpenAI这样的大厂来说,他们的目标是让用户在自家的APP类产品上高频使用、形成越多越多的「记忆」,继而在自家APP上沉淀、形成粘性,之后一旦用户绑定,可能就很难再挪到其他地方去。从这个角度来说,他们希望用户能相对独立、在自家场景池子里沉淀出「独家记忆」。

而对于初创企业来说,他们希望更多的开发者或企业能够快速去具备「记忆」能力,同时让大家形成一个可共享的记忆中枢,随着越来越多的APP联合去做记忆的共享、中枢的管理,就会形成对原有中心化的「去中心化」,同时也会形成一个新的中心化记忆平台。

这种记忆平台或许能够立体刻画这个用户的所有事情,比如对用户在工作场景、生活场景的经历、偏好等,有一个立体记忆能力,而这种记忆是能够增强他在使用任何与AI相关APP上的体验。

MistralAI的最新动作,无疑是这类玩家的一个典型代表,宣布免费、大幅扩展其企业级业务平台LeChat,并已经和20多家平台集成。而这一动作也被视为是在试图通过提供先进的「记忆」功能和广泛的第三方集成,来打破已有的AI市场竞争格局……

由此看来,AI战场已经升级,在新一轮围绕「记忆」能力构建的竞赛中,各类玩家是一个互相角力的状态,战况胶着,谁都有可能「跑」出来。而前面也已经提到,「记忆」能力,是模型技术层面和应用层的双重诉求,一旦取得突破性进展,那么无疑将再现「DeepSeek时刻」「Manus时刻」。

而从当前AI「记忆」能力的发展状况来看,目前留给各大玩家的时间也不是「很多」。

按照李志宇的理解,如果将模型「记忆」能力按照抽取、存储、更新、调度、应用、治理六个维度划分,那我们可能距离真正能够在大范围去用,并且大家能够感受到它给我们生活带来无处不在变化的话,可能还需要一到两年的时间。

而如果想要达到治理层面,也就是解决模型「记忆」本身的幻觉问题、隐私保障,甚至立法等问题的话,至少可能还要三到五年的时间。

未来,到底是谁将再现「DeepSeek时刻」,目前看来是「乾坤未定,一切皆有可能是黑马」。