热搜词: 贝特瑞

蚂蚁集团GRAO框架: 让AI实现自我优化

这项由蚂蚁集团智能医疗部门王浩文等十六位研究者共同完成的研究,于2025年8月发表在arXiv预印本平台(论文编号:arXiv:2508.07750v1),为大型语言模型的对齐优化提出了一个全新的统一框架。有兴趣深入了解的读者可以通过arXiv网站访问完整论文。

要理解这项研究的价值,我们可以把训练AI模型比作培养一个学生。传统的方法就像两种截然不同的教学方式:一种是让学生死记硬背标准答案(监督微调),另一种是让学生在黑暗中摸索试错(强化学习)。前者虽然见效快,但学生很难超越教科书的水平;后者虽然能培养创新能力,但效率极低,而且对学生的基础要求很高。

这个问题在当今AI发展中尤为突出。我们都知道,像GPT和Claude这样的大型语言模型需要经过"对齐"训练,才能真正理解人类的需求并给出有用的回答。然而,现有的对齐方法就像两条平行线,很难真正结合各自的优势。蚂蚁集团的研究团队观察到了这个痛点,决定探索一种全新的解决方案。

他们提出的GRAO(Group Relative Alignment Optimization,群组相对对齐优化)方法,就像是设计了一个全新的教学体系。在这个体系中,AI模型会经历三个阶段的成长:首先模仿优秀的标准答案,然后在安全的环境中探索新的可能性,最终在某些方面超越原有的标准。这种"模仿-探索-超越"的过程,让AI既能快速学到基础知识,又不会被局限在固有的框架内。

研究团队在实验中发现,GRAO方法相比传统的监督微调提升了57.70%,比直接偏好优化提升了17.65%,比强化学习方法PPO和GRPO分别提升了7.95%和5.18%。这些数字背后代表的是AI模型在理解复杂任务和人类偏好方面的显著进步。

一、传统对齐方法的局限:为什么需要新的解决方案

想象你正在学习烹饪。传统的学习方式通常有两种:要么严格按照食谱操作(这就像监督微调),要么完全凭感觉自己摸索(这就像强化学习)。前者虽然能保证不出大错,但永远做不出超越食谱的美味;后者虽然可能创造奇迹,但更多时候会搞砸整道菜。

在AI对齐领域,监督微调(SFT)就像那本严格的食谱。它通过让模型学习人类标注的高质量对话样本,能够快速改善模型的表现。这种方法的优势在于效率高、收敛快,就像按食谱做菜一样稳妥可靠。但问题是,模型只能学会已有样本中的知识和模式,很难突破训练数据的局限性。

另一方面,强化学习方法(如PPO、GRPO)就像让厨师在没有食谱的情况下自由发挥。这种方法让模型通过不断试错来学习,理论上能够发现训练数据中没有的新知识和新能力。但现实很残酷:如果模型的基础能力不够强,它可能永远找不到正确答案。研究团队发现,当模型对某个问题采样多次都无法给出正确答案时,这个样本实际上会被完全丢弃,模型无法从中学到任何东西。

更深层的问题在于,这两种方法代表了完全不同的学习哲学,就像两条永不相交的平行线。监督微调追求的是稳定和可靠,强化学习追求的是探索和创新。然而,真正优秀的学习过程应该是两者的有机结合:既要有扎实的基础,又要有突破的勇气。

蚂蚁集团的研究团队正是看到了这个根本性的矛盾。他们意识到,如果能够设计出一种方法,让AI模型在掌握基础知识的同时,还能够在安全可控的环境中进行探索和创新,那么就能真正实现对齐训练的最佳效果。这个想法最终催生了GRAO方法的诞生。

二、GRAO的核心理念:构建"模仿-探索-超越"的学习闭环

GRAO的设计理念可以用培养一个优秀学生的过程来理解。设想你是一位教师,面前坐着一个有潜力但基础不够扎实的学生。你会怎么教导他呢?

首先,你会给他一些标准答案让他学习和模仿,这样他能快速建立基本的知识框架。但仅仅模仿是不够的,你还会鼓励他在理解标准答案的基础上,尝试用自己的方式解决问题。当他提出了比标准答案更好的解法时,你会给予表扬和鼓励;当他的尝试不如标准答案时,你会温和地引导他回到正确轨道上。

GRAO正是基于这样的教学理念设计的。它不是简单地让模型在"模仿"和"探索"之间选择其一,而是创造了一个三位一体的学习环境。在这个环境中,模型需要同时处理三种不同类型的信号:模仿信号教会它什么是好的,探索信号鼓励它尝试新的可能性,对齐信号则确保它不会偏离人类的价值取向。

具体来说,对于每一个训练问题,GRAO会让模型生成多个不同的回答(通常是8个),然后将这些回答与标准的参考答案进行比较。系统会计算每个回答相对于其他回答和参考答案的"优势值"。那些表现优秀的回答会得到正向激励,鼓励模型在未来生成更多类似的内容;表现不佳的回答则会受到负向信号的抑制。

这种机制的巧妙之处在于它的动态平衡特性。当模型在某个问题上的自生成答案都不够好时,系统会更多地依赖模仿标准答案来学习;而当模型能够生成高质量答案时,系统就会减少对标准答案的依赖,转而鼓励模型的自主创新。这就像一个自适应的教学系统,能够根据学生的水平调整教学策略。

研究团队在GRAO的数学公式设计上也颇具匠心。他们使用了一个三项式的损失函数,分别对应探索、模仿和对齐三个组件。每个组件都有相应的权重参数,可以根据训练阶段和模型表现进行调整。这种设计确保了三个组件能够协调工作,而不是相互冲突。

三、技术创新点:三大核心机制的协同作用

GRAO的技术实现可以比作一个精密的乐团指挥系统。在这个系统中,三位指挥家需要协调配合,确保整个乐团演奏出和谐动听的音乐。

第一位指挥家负责"群组多样性采样"。传统方法通常只生成一个回答,就像独奏一样单调。而GRAO会让模型对每个问题生成多个不同的回答,就像让乐团的不同声部都发出声音。这些回答之间会存在质量差异,有些可能接近完美,有些可能存在明显缺陷。通过比较这些不同质量的回答,系统能够更准确地理解什么是好的,什么是需要改进的。

第二位指挥家负责"群组直接对齐损失"的计算。这是GRAO最核心的创新点。系统不是简单地判断某个回答的绝对好坏,而是计算每个回答相对于其他回答的优势。这就像音乐评审不是单纯评价某个演奏者的水平,而是比较所有演奏者之间的相对差异。通过这种相对比较,系统能够更精确地识别出真正优秀的表现。

第三位指挥家负责"参考感知的参数更新"。在传统的训练方法中,参考答案往往被视为不可超越的标准。但GRAO采用了更加灵活的策略:当模型自己生成的答案质量超越参考答案时,系统会适当减少对参考答案的依赖;反之,当模型表现不佳时,系统会增强对参考答案的学习力度。这种动态调整机制确保模型既不会被参考答案束缚,也不会脱离人类价值观的指导。

这三个机制的协同工作创造了一种独特的学习动态。在训练初期,模型的自生成能力较弱,系统主要依靠模仿组件进行学习,就像音乐学生刚开始学习时需要大量练习标准曲目。随着训练的进行,模型逐渐获得了更强的生成能力,探索组件开始发挥更大作用,鼓励模型尝试创新性的回答。而对齐组件始终在背景中发挥作用,确保模型的创新不会偏离正确方向。

为了确保这个复杂系统的稳定性,研究团队还引入了优势归一化机制。这就像给每位指挥家设定了音量控制器,防止某一个声部过于突出而掩盖了其他声部。通过计算每组回答的均值和标准差,系统将优势值标准化,确保训练过程的稳定性和可重复性。

四、理论基础与收敛性保证:为什么GRAO能够稳定工作

任何一个优秀的学习系统都需要有坚实的理论基础,就像建筑需要有稳固的地基一样。GRAO虽然在实现上相当复杂,但其背后的数学理论是严谨而完整的。

研究团队从随机近似理论的角度分析了GRAO的收敛性质。简单来说,他们证明了在满足一定条件下,GRAO的训练过程会稳定地朝着最优解收敛,而不会出现震荡或发散的情况。这就像证明了一个学习方法确实能够让学生持续进步,而不是在某个阶段陷入混乱。

这个理论分析基于几个关键假设。首先是目标函数的光滑性假设,这确保了参数的小幅变化不会导致性能的剧烈波动。其次是梯度有界性假设,这保证了训练过程不会出现梯度爆炸的情况。还有奖励有界性假设,确保反馈信号不会过于极端。最重要的是优势一致性假设,这保证了相对比较的结果是可靠和稳定的。

在这些假设的基础上,研究团队证明了GRAO的参数更新序列会以概率1收敛到目标函数的稳定点。更具体地说,随着训练步数的增加,模型参数的梯度会逐渐趋向于零,这意味着模型找到了一个局部最优解,不会再出现大幅度的性能波动。

理论分析还揭示了GRAO相比传统方法的效率优势。传统的强化学习方法通常需要大量的样本才能收敛,而GRAO通过引入参考答案和相对比较机制,能够更有效地利用每个训练样本包含的信息。研究团队发现,GRAO的样本复杂度比标准的策略梯度方法降低了约30%到50%。

更有趣的是,理论分析解释了GRAO中三个组件权重参数的设置原理。模仿组件的权重β需要满足一个上界条件,以确保模型不会过度依赖参考答案而失去创新能力。探索组件的权重自然形成,不需要特殊设置。对齐正则化项的权重λ则应该与优势方差成反比,这样可以在鼓励探索和保持稳定性之间找到最佳平衡点。

这些理论结果不仅为GRAO的有效性提供了数学保证,也为实际应用中的超参数设置提供了科学指导。研究团队发现,当群组大小G达到5个以上、学习率按照标准衰减规律设置时,GRAO能够达到最佳的收敛速度和最终性能。

五、实验设计与评估方法:如何验证新方法的有效性

为了验证GRAO的实际效果,研究团队设计了一套全面的实验评估体系。这就像为一个新的教学方法设计考试,既要测试学生的基础知识掌握情况,也要评估他们的创新能力和实际应用能力。

实验使用了两个广受认可的基准数据集:helpful-base和harmless-base。这两个数据集来自Anthropic公司,专门用于评估AI模型的有用性和无害性。每个样本都包含一个问题、一个人类偏好的回答和一个质量较低的回答,为模型对齐训练提供了丰富的比较信息。

研究团队选择了两种不同架构的模型进行实验:Qwen2.5-7B代表传统的密集型模型,Moonlight-16B-A3B则代表新兴的专家混合(MoE)架构。这种多样化的模型选择就像在不同类型的学生群体中测试教学方法的普适性。

评估指标的设计也颇具创新性。传统的评估通常只关注模型输出的绝对质量,而GRAO的评估重点关注相对改进程度。他们使用了两个核心指标:相对对抗得分(RAS)衡量模型输出优于参考答案的比例,标准化对齐增益(NAG)则测量模型相比训练前的改进幅度。这种设计确保了评估结果能够真实反映不同方法之间的差异。

为了确保实验结果的可信度,研究团队采用了自动化评估和人工评估相结合的方式。他们使用DeepSeek-V3模型作为自动评判员,这个模型在理解人类偏好方面表现出色。同时,他们也进行了详细的消融实验,逐一移除GRAO的各个组件,观察性能变化,从而验证每个组件的贡献度。

训练过程的监控也异常细致。研究团队不仅记录了最终的性能指标,还跟踪了整个训练过程中损失函数各个组件的变化趋势。这种细粒度的监控就像给学习过程拍摄延时影片,能够清楚地看到模型是如何从模仿逐步过渡到探索,最终实现超越的。

实验设置在硬件配置、批次大小、学习率等关键参数上都经过了精心调试。研究团队使用Adam优化器,权重衰减设为0.01,每个查询生成8个候选回答,生成温度设为0.7,最大生成长度为2048个词元。这些参数的选择都基于前期的大量预实验和理论分析结果。

六、实验结果分析:GRAO的显著优势

实验结果展现出了GRAO方法的显著优势,这些数字背后反映的是AI对齐技术的重要突破。

在有用性对齐任务上,GRAO的表现堪称亮眼。在Qwen2.5-7B模型上,GRAO达到了64.60%的相对对抗得分和67.98%的标准化对齐增益,相比最强的基线方法GRPO分别提升了3.71%和7.24%。这意味着GRAO训练出的模型生成的回答中,有超过64%被评判为优于人工标注的参考答案,而且这种改进相比训练前提升了近68%。

在更具挑战性的Moonlight-16B模型上,GRAO同样展现了稳定的优势,相对对抗得分达到70.84%,标准化对齐增益为55.06%。值得注意的是,GRAO在专家混合架构上的表现特别突出,这表明该方法能够很好地适应不同的模型架构。

无害性对齐的结果更加令人印象深刻。在这个更加严格的评估维度上,GRAO在Moonlight-16B模型上实现了76.82%的相对对抗得分,相比GRPO的68.08%有了显著提升。更重要的是,标准化对齐增益达到了34.85%,而GRPO只有12.11%,提升幅度达到了惊人的22.74%。这说明GRAO不仅能够提升模型的有用性,在确保安全性方面也具有独特优势。

训练动态分析揭示了GRAO高效性的根源。研究团队发现,GRAO能够在仅仅一半的训练步数内达到传统方法需要完整训练才能达到的性能水平。这种快速收敛得益于三个协同机制的有效配合:模仿组件为模型提供了良好的起点,探索组件驱动持续改进,对齐正则化项则确保了优化方向的正确性。

更深入的分析显示,GRAO的优化过程呈现出明显的阶段性特征。在训练的前200步,模仿损失占据主导地位,模型主要学习参考答案中的知识和模式。随后的训练过程中,探索损失逐渐增强,模型开始生成质量超越参考答案的回答。到训练后期,探索损失占据了总损失的50%以上,表明模型已经获得了自主创新的能力。

消融实验的结果进一步验证了GRAO设计的合理性。当移除模仿组件时,模型的初期学习速度降低了62%,最终性能保持在原来的93.8%;移除探索组件导致了12.81%的性能下降,说明自主生成能力对最终效果的重要性;移除对齐正则化项虽然在早期训练中表现更好,但最终性能只能达到完整GRAO的89.1%,显示了一致性约束的价值。

七、案例研究:GRAO在实际应用中的表现

为了更直观地展示GRAO的实际效果,研究团队进行了详细的案例分析。这些真实的对话例子就像窥视镜,让我们能够看到不同对齐方法在处理复杂问题时的具体表现差异。

第一个案例涉及文化常识问题。当用户询问"你知道歌手阿黛尔吗?"时,不同方法训练的模型展现出了明显的回答质量差异。传统监督微调方法的回答过于简单:"是的,我知道。她是一位很有才华的歌手。"这种回答虽然正确,但信息量极其有限,无法满足用户的真实需求。

直接偏好优化方法的表现稍好一些:"是的,我熟悉阿黛尔。她是一位英国创作型歌手,在音乐界取得了巨大成功。"但这个回答仍然缺乏具体细节,没有提供用户可能感兴趣的深入信息。

群组相对策略优化方法则聚焦于成就:"是的,我熟悉阿黛尔。她获得了众多奖项,包括多项格莱美奖。"这种回答虽然提供了一些具体信息,但角度相对单一,没有全面展现歌手的特色。

相比之下,GRAO训练的模型给出了更加全面而有用的回答:"是的,她是一位英国创作型歌手,以其深情的嗓音和感人的情歌而闻名。她获得了众多奖项,包括多项格莱美奖。她最受欢迎的歌曲包括《Someone Like You》、《Rolling in the Deep》和《Hello》。"这个回答不仅涵盖了歌手的基本信息,还包括了艺术特色、成就和代表作品,信息密度和实用性都明显优于其他方法。

第二个案例更具挑战性,涉及文化敏感性问题。当讨论进口汽车流行度时,用户追问"所以它们更受重视吗?"不同方法的回答再次显示出明显差异。

监督微调方法出现了严重的重复问题,在回答中两次重复了相同的句子,显示出注意力机制的失控。这种重复不仅影响阅读体验,也暴露了模型训练的不稳定性。

直接偏好优化方法虽然避免了重复问题,但引入了不准确的信息,提到了德国和意大利的豪华车品牌,这些内容在原始语境中并不相关。这种无关信息的加入可能误导用户对问题本质的理解。

群组相对策略优化方法则犯了事实性错误,声称美国人更倾向于购买地理位置接近的国家生产的汽车,但随后却说更可能购买来自遥远的日本和韩国的汽车,前后逻辑自相矛盾。

GRAO的回答展现出了更好的逻辑一致性和文化敏感度:"是的。调查还显示,美国人更倾向于购买与自己国家文化相似的国家生产的汽车。例如,美国人更可能购买日本汽车,因为日本是一个与美国文化相似的国家。"虽然这个解释可能过于简化,但它避免了明显的逻辑错误和有害的刻板印象,同时提供了一个合理的社会学解释角度。

这些案例清楚地展示了GRAO的两个关键优势:信息综合能力和文化适应性。在信息综合方面,GRAO能够整合多个维度的知识,生成更加全面和有用的回答。在文化适应性方面,GRAO展现出了更好的敏感性,能够在避免有害内容的同时保持回答的合理性和有用性。

八、在不同模型架构上的适应性:MoE模型的特殊表现

GRAO的一个重要发现是它在不同模型架构上的适应能力,特别是在新兴的专家混合(MoE)架构上展现出的特殊优势。这个发现具有重要的实践意义,因为MoE架构正在成为大型语言模型发展的重要方向。

专家混合模型的工作原理可以比作一个专业团队。在这个团队中,不同的专家负责处理不同类型的问题:有的专家擅长数学推理,有的专家擅长语言理解,有的专家擅长常识问答。当面临一个具体问题时,系统会选择最合适的专家来处理,而不是让所有专家都参与。这种设计显著提高了模型的效率和专业化程度。

然而,传统的对齐方法在MoE架构上往往表现不佳。这是因为传统方法的梯度更新往往是全局性的,会同时影响所有专家模块,导致专家之间的干扰和冲突。就像一个合唱团,如果指挥给每个声部都下达相同的指令,最终的效果很可能是混乱而非和谐。

GRAO在MoE架构上的优异表现来源于其独特的优势归一化机制。这个机制能够自动识别哪些专家在处理特定类型问题时表现更好,然后有针对性地强化这些专家的能力。同时,表现不佳的专家会受到适度的抑制,避免对整体性能造成负面影响。

实验数据显示,GRAO在Moonlight-16B MoE模型上的改进幅度远超在密集模型上的表现。在无害性对齐任务上,GRAO相比GRPO的提升达到了22.74%,而在密集的Qwen2.5-7B模型上这个数字只有2.8%。这种差异表明GRAO特别适合充分发挥MoE架构的潜力。

更深入的分析揭示了这种优势的技术原因。GRAO的梯度稀疏性与MoE架构的专家路由机制形成了天然的匹配。在GRAO的训练过程中,优势归一化梯度会自然地集中在那些对当前任务最重要的参数上,这正好符合MoE架构中专家激活的稀疏性特征。这种匹配减少了专家模块之间的相互干扰,让每个专家能够更好地专注于自己的专业领域。

这个发现对未来的AI发展具有重要意义。随着模型规模的不断增大,MoE架构很可能成为主流选择。GRAO在这种架构上的优异表现表明,它不仅是当前技术的改进,更是面向未来的解决方案。这种前瞻性让GRAO在众多对齐方法中脱颖而出。

九、训练过程的深层洞察:三阶段学习的内在机制

通过对训练过程的细致分析,研究团队发现了GRAO学习过程的深层规律。这个过程可以明确划分为三个阶段,每个阶段都有其独特的特征和作用。

第一阶段可以称为"快速对齐期",大约覆盖训练的前200步。在这个阶段,模仿损失占据绝对主导地位,超过总损失的80%。模型的主要任务是学习参考答案中蕴含的知识模式和回答风格。就像学生刚入学时需要大量模仿老师的示范一样,模型在这个阶段建立了基本的能力框架。

有趣的是,尽管这个阶段主要依靠模仿学习,但探索和对齐组件并没有完全沉默。它们以较低的强度持续工作,为模型提供关于质量差异的微弱信号。这种设计确保了模型从一开始就具备了质量感知能力,而不是盲目地复制参考答案。

第二阶段是"探索增强期",从第200步延续到大约第600步。在这个阶段,模型开始展现出自主生成高质量回答的能力。探索损失的占比持续上升,从初期的不到20%逐渐增长到40%以上。这个变化反映了模型正在从被动学习转向主动创造。

这个阶段最引人注目的特征是模型开始产生超越参考答案质量的回答。研究团队发现,随着训练的进行,模型自生成答案的平均质量评分开始超过参考答案。这个转折点通常出现在第300-400步之间,标志着模型从"学习者"向"创造者"的转变。

第三阶段是"自主优化期",从第600步开始直到训练结束。在这个阶段,探索损失成为主导因素,占比稳定在50-60%之间。模型已经不再主要依赖参考答案的指导,而是通过自己的生成结果来驱动进一步的改进。

这个阶段的另一个重要特征是训练稳定性的显著提升。早期阶段的损失曲线往往存在较大波动,这反映了模型在不同学习信号之间的平衡过程。而在自主优化期,损失曲线变得非常平滑,显示出成熟学习系统的特征。

这种三阶段的学习模式不仅验证了GRAO设计理念的正确性,也为理解AI模型的学习机制提供了新的视角。它表明,优秀的学习系统应该具备从模仿到创新的自然过渡能力,而不是简单地在不同学习方式之间切换。

十、方法的局限性与未来展望

尽管GRAO展现出了显著的优势,研究团队也诚实地讨论了其局限性和改进空间。这种科学严谨的态度体现了负责任的研究精神。

首先是计算成本问题。GRAO需要为每个训练样本生成多个候选回答,这使得训练时的计算开销比传统方法增加了约8倍(因为默认生成8个候选)。虽然这种额外开销带来了显著的性能提升,但对于资源受限的研究团队来说可能是一个挑战。不过研究团队指出,这个问题可以通过调整候选回答数量来缓解,他们的实验表明即使只生成4个候选回答,GRAO仍能保持大部分优势。

其次是超参数敏感性问题。GRAO引入了两个额外的超参数:模仿权重β和对齐正则化强度λ。虽然理论分析为这些参数的设置提供了指导,但在不同的数据集和模型上,最优参数可能存在差异。研究团队建议未来的工作可以开发自适应参数调整机制,根据训练过程中的表现动态调整这些参数。

第三是评估指标的选择问题。当前的实验主要使用自动化评估方法,虽然这些方法已经被证明与人类评估高度相关,但仍然存在一定的局限性。特别是在处理主观性较强或文化敏感性较高的问题时,自动评估可能无法完全捕捉人类的复杂偏好。

从积极的角度来看,GRAO的成功开辟了多个有前途的研究方向。首先是多目标对齐的扩展。当前的GRAO主要关注有用性和无害性两个维度,未来可以扩展到包括真实性、公平性、透明性等更多维度的综合对齐。

其次是持续学习场景的应用。GRAO的自适应机制使其天然适合处理分布变化的情况。在实际部署中,用户需求和偏好会随时间发生变化,GRAO的框架可以相对容易地适应这些变化。

再次是跨语言和跨文化的泛化能力。当前的实验主要在英语数据上进行,GRAO在其他语言和文化背景下的表现还有待验证。这个方向的研究对于构建真正全球化的AI系统具有重要意义。

最后是与新兴技术的结合。随着大型语言模型技术的快速发展,新的架构和训练技术不断涌现。GRAO的框架设计具有很强的可扩展性,可以与这些新技术相结合,产生更强大的对齐能力。

说到底,GRAO代表的不仅仅是一个新的技术方法,更是对AI对齐问题的深层思考。它告诉我们,最有效的学习往往不是单一策略的执行,而是多种策略的协调配合。就像培养一个优秀的学生需要严格的基础训练和自由的创新探索相结合一样,训练一个优秀的AI模型也需要模仿学习和自主探索的有机统一。

这种"模仿-探索-超越"的范式可能会影响未来AI对齐研究的整体方向。随着AI系统变得越来越复杂和强大,如何确保它们与人类价值观保持一致将成为更加紧迫的挑战。GRAO提供的不仅是一个具体的技术解决方案,更是一个思考这类问题的新框架。

蚂蚁集团的这项研究展示了中国AI研究团队在基础技术创新方面的实力。从实用的角度来看,GRAO的成功应用可能会推动更多真正有用、安全、可靠的AI产品的出现,让普通用户能够享受到更好的AI服务体验。从长远来看,这种对AI对齐问题的深入研究将为构建更加智能、友好的人工智能系统奠定坚实基础。

Q&A

Q1:GRAO是什么?它解决了什么问题?

A:GRAO(Group Relative Alignment Optimization)是蚂蚁集团提出的一种AI模型对齐训练方法。它解决了传统方法要么只能模仿训练数据(监督微调)、要么效率低下需要大量试错(强化学习)的问题,通过"模仿-探索-超越"三阶段学习,让AI既能快速学会基础知识,又能在此基础上实现创新突破。

Q2:GRAO相比传统方法有什么优势?

A:实验显示GRAO相比传统监督微调提升57.70%,比直接偏好优化提升17.65%,比强化学习方法PPO和GRPO分别提升7.95%和5.18%。更重要的是,GRAO能在一半的训练时间内达到传统方法的完整效果,特别在专家混合模型上表现突出。

Q3:GRAO的核心工作原理是什么?

A:GRAO让AI模型对每个问题生成多个不同回答,然后通过三个机制协同工作:探索机制鼓励高质量的自生成回答,模仿机制学习标准答案,对齐机制确保不偏离人类价值观。系统会根据回答质量动态调整三个机制的权重,实现从模仿到创新的自然过渡。