首页 > 科学

新加坡大学: 多AI协作解决复杂文档超越大模型

这项由新加坡国家大学胡晓斌教授领导的跨国研究团队发表于2025年8月的arXiv预印本论文，展示了一种名为MACT的多智能体协作框架。研究团队成员来自清华大学、中科大、南洋理工大学、慕尼黑工业大学、浙江大学和复旦大学等知名学府。有兴趣深入了解的读者可以通过论文链接https://github.com/YU-deep/MACT.git访问完整研究成果。

当你面对一份复杂的法律合同、医学报告或者学术论文时，你可能需要先理解文档结构，然后仔细分析内容，接着判断信息的准确性，最后得出结论。现在，研究人员让AI也学会了这种"团队协作"的方式来处理复杂文档。他们开发的MACT系统就像一个专业团队，其中有四个不同角色的AI"专家"：一个负责制定计划的"策略师"，一个负责执行任务的"执行者"，一个负责检查质量的"质检员"，还有一个负责总结答案的"总结员"。

令人惊喜的是，这个由相对较小的AI模型组成的团队，在处理文档理解和问答任务上的表现，竟然超过了许多参数规模更大的单个AI模型。这就好比四个各有专长的普通人组成的团队，在解决复杂问题时能够胜过一个能力更强但孤军奋战的专家。

一、现有AI处理文档时遇到的三大难题

目前的视觉语言模型，无论是通用型还是专门针对文档设计的，都面临着三个主要挑战。首先是规模限制问题，就像一个人的大脑容量有限一样，参数较少的AI模型在处理复杂文档时往往力不从心。研究团队发现，大模型和小模型在文档理解能力上存在显著差距，而小模型的潜力往往没有得到充分发挥。

其次是自我纠错能力不足的问题。人类在解决复杂问题时，会自然地进行自我检查和修正，但现有的AI模型缺乏这种robust的自我纠错机制。即使有些系统试图加入纠错功能，效果也往往不够理想，就像一个人既要当裁判又要当运动员一样，很难做到真正客观公正的判断。

第三个问题是在处理长篇文档和复杂推理时表现不佳。当面对几十页的报告或需要跨页面信息整合的任务时，现有模型就像近视眼看远处的景物一样，往往抓不住关键信息，推理能力也会明显下降。这些问题导致现有系统在处理基于文档的任务时表现不够理想。

二、MACT系统的"四人小组"工作模式

为了解决这些问题，研究团队设计了一个巧妙的解决方案：让四个专门化的AI智能体像一个高效团队一样协作工作。这就好比组建一个专业的咨询团队，每个成员都有明确的职责分工。

规划智能体扮演"策略师"的角色，专门负责分析原始问题并制定高层次的执行计划。当接到一个复杂的文档问答任务时，它会首先生成一些相关的示例问题和对应的解决方案，然后参考这些示例为当前问题制定具体的执行计划。这个过程就像经验丰富的项目经理在接到新任务时，会先回顾类似项目的处理方式，然后制定针对性的工作计划。

执行智能体担任"执行者"的角色，负责将规划智能体制定的计划逐步落实。它会把总体计划分解为具体的执行单元，然后依次完成每个步骤。在执行过程中，它可以调用各种工具和资源，就像工程师根据设计图纸选择合适的工具来完成具体工作一样。执行完成后，它会将整个执行过程和结果整理好，传递给下一个智能体。

判断智能体发挥"质检员"的作用，这是整个系统中最具创新性的设计。与传统的纠错机制不同，这个智能体专门负责检查前面生成的执行计划和执行过程是否正确，但它并不直接进行修改。当发现问题时，它会指出具体的错误位置和错误类型，然后将任务重新分配给相应的前序智能体进行修正。这种设计就像专业的质量检查员，只负责发现问题并报告，具体的修正工作由原来的负责人来完成，这样既保证了检查的客观性，又避免了修正过程中可能出现的不一致问题。

答案智能体承担"总结员"的职责，负责根据正确的执行过程生成最终答案。有趣的是，它不仅会考虑正确的执行结果，还会参考之前出现过的错误片段，这样可以更好地关注那些容易出错的细节，确保最终答案的准确性和完整性。

三、创新的奖励机制让团队协作更默契

为了让这四个智能体更好地协作，研究团队设计了一套混合奖励建模系统。这就像在一个公司里，既要考核每个员工的个人业绩，也要评估整个团队的协作效果。

对于规划和执行智能体，系统采用逐步奖励的方式，对它们产出的每个步骤都进行评分。这种细致的评估方式就像老师批改作业时不仅看最终答案，还会检查解题的每个步骤，这样可以及时发现问题并给出针对性的指导。

对于判断和答案智能体，系统则对它们的整体输出进行评估，因为这两个智能体的工作本质上是对前面工作的整体性评判和总结。

除了这些针对性的奖励外，系统还引入了全局奖励机制，基于整个团队协作产生的最终结果来评估所有智能体的表现。这种设计可以避免各个智能体只关注自己的局部任务而忽视整体目标的问题，就像团队奖金能够促进成员之间更好的协作一样。

四、量身定制的"加班"策略提升处理能力

研究团队还为每个智能体设计了个性化的测试时计算扩展策略，这就像根据每个团队成员的特长来分配不同强度的工作任务。

对于规划智能体，系统采用并行扩展的方式。由于这个智能体本身就需要生成多个相关示例来辅助制定计划，研究团队进一步扩展了这个功能，让它可以同时生成更多的参考计划，从而增加找到最佳解决方案的可能性。这就像让策略师同时考虑更多的备选方案，然后从中选择最合适的。

执行智能体采用的是逐步筛选的策略。对于执行过程中的每个步骤，系统会生成多个候选执行方案，然后使用预训练的奖励模型对这些方案进行评分，选择得分最高的方案作为该步骤的执行结果，再以此为基础进行下一步操作。这种方式就像在每个关键决策点都进行充分的对比分析，确保每一步都走在最优路径上。

判断智能体使用的是预算强制扩展策略，这种方法会强制要求智能体进行更充分的思考。当智能体的思考过程不够深入时，系统会要求它继续思考，直到达到预设的思考量标准。这就像要求质检员必须花足够的时间仔细检查每个细节，不能草率了事。

答案智能体由于主要负责信息整合和总结，其工作相对简单，因此研究团队没有为它设计专门的扩展策略，以避免不必要的计算开销。

五、训练过程分为两个阶段循序渐进

整个系统的训练采用了两阶段的方式，就像培养一个专业团队需要先进行基础培训，再进行实战演练一样。

第一阶段是监督微调阶段，研究团队首先选择了三组不同的基础模型作为起点。对于需要处理视觉信息的规划和执行智能体，他们选用视觉语言模型；对于主要处理文本信息的判断和答案智能体，则选用语言模型。在这个阶段，团队使用精心收集的文档理解和问答数据集对这些基础模型进行专门训练，提升它们的视觉理解和推理能力。

接着，他们使用GPT-4o和基于规则的验证方法生成判断标签，训练判断智能体的错误识别能力。同时，他们还训练答案智能体学会整合前面智能体的输出并生成高质量的最终答案。

第二阶段是强化学习阶段，这时四个智能体开始真正的团队协作训练。系统使用预训练的奖励模型来生成奖励信号，通过GRPO算法对整个协作框架进行优化。在这个过程中，规划和执行智能体会收到逐步的过程奖励反馈，而判断和答案智能体则收到整体的结果奖励。全局奖励则基于整个团队协作产生的最终答案质量来计算，这样可以确保各个智能体不仅要做好自己的工作，还要考虑与其他成员的协作效果。

六、在十五个基准测试中表现卓越

为了全面评估MACT系统的性能，研究团队在15个不同的基准测试数据集上进行了详细的实验。这些数据集涵盖了四种主要的文档类型和两种非文档类型的任务。

在文档理解方面，团队测试了基于文本的文档（如DocVQA、DUDE、SlideVQA、MMLongBench-Doc），基于网页的文档（如VisualMRC、InfographicVQA），基于图表的文档（如ChartQA、CharXiv），以及基于表格的文档（如TableVQA-Bench、TableBench）。

为了确保系统没有过度专门化而失去通用能力，他们还在一般性任务（ScienceQA、RealWorldQA）和数学推理任务（MathVista、Math-Vision、MathVerse）上进行了测试。

实验结果非常令人鼓舞。MACT系统的三个变体在平均得分上分别取得了前三名的成绩，在15个基准测试中有13个获得了最佳表现。特别值得注意的是，在需要处理长视觉上下文的MMLongBench-Doc测试中，以及在三个数学推理基准测试中，MACT-MiMo-VL-Series-28B变体的表现分别超过了第二名7.1%、10.6%、5.9%和8.7%。

更令人印象深刻的是，MACT系统虽然参数总数不到30B，但其性能不仅超过了所有参数在100B以下的比较方法，甚至还优于一些闭源的大规模模型。与基础模型相比，MACT的三个变体平均性能提升了10.3%、9.9%和11.5%。

七、深入分析验证设计的有效性

研究团队进行了详细的消融实验来验证各个组件的贡献。他们发现，多智能体协作框架是性能提升的最主要因素，相比单智能体系统带来了8.6%的平均性能提升。有趣的是，如果简单地将所有功能集成到一个智能体中，性能甚至会比基础模型更差，这说明了专门化分工的重要性。

混合奖励建模策略贡献了3.4%的性能提升，而智能体级混合测试时扩展策略则带来了3.7%的改善。在复杂任务上，后者的改善效果更加明显，这验证了为不同智能体定制不同扩展策略的合理性。

关于判断智能体的设计，实验证明了研究团队的创新方法确实优于传统的纠错机制。相比于内部纠错机制，独立判断智能体的方法在平均性能上提升了2.6%，同时需要的纠错次数还更少。这种"专人专职"的设计避免了传统方法中可能出现的主观偏见问题，也避免了不同功能模块之间可能产生的冲突。

八、各种参数设置的影响分析

研究团队还详细分析了各种参数设置对系统性能的影响。他们发现，增加相关计划的生成数量Np和执行候选方案的数量Ne都能提升系统性能，但收益会逐渐递减。当Np和Ne都设置为16时，系统达到了性能和计算成本的最佳平衡点。

在纠错次数的设置上，研究团队发现将最大纠错次数设置为3次能够获得最佳效果。过少的纠错次数无法充分发挥质量控制的作用，而过多的纠错次数反而可能让智能体陷入混乱，影响最终的答案质量。

实验还显示，全局奖励虽然单独贡献有限，但它能够有效避免智能体过于关注局部目标而忽视整体协作效果的问题，对于复杂任务的处理特别有价值。个性化的测试时扩展策略比统一的扩展策略效果更好，这证明了根据每个智能体的特点进行定制化设计的重要性。

说到底，这项研究展示了一个非常有趣的现象：有时候"团队协作"确实比"单打独斗"更有效。通过让多个相对较小的AI模型各司其职、协同工作，MACT系统在文档理解和问答任务上取得了令人瞩目的成果。这种方法不仅在技术上具有创新性，在实用性上也很有前景，特别是对那些计算资源有限但又需要处理复杂文档任务的应用场景。

研究团队的工作为多智能体系统在视觉语言理解领域的应用开辟了新的方向，也为如何更好地设计和训练协作型AI系统提供了宝贵的经验。随着这种技术的进一步发展和优化，我们可能会看到更多能够像人类团队一样高效协作的AI系统出现，为解决现实世界中的复杂问题提供新的可能性。有兴趣深入了解技术细节的读者，可以通过研究团队提供的开源代码库https://github.com/YU-deep/MACT.git获取更多信息。

Q&A

Q1：MACT系统是什么？它是如何工作的？

A：MACT是一个多智能体协作框架，由四个专门的AI"专家"组成：规划智能体负责制定解决方案，执行智能体负责具体实施，判断智能体负责质量检查，答案智能体负责最终总结。它们像一个专业团队一样分工协作，处理复杂的文档理解和问答任务。

Q2：为什么MACT系统比单个大模型表现更好？

A：MACT系统通过专门化分工和协作机制，让每个智能体专注于自己擅长的任务，避免了单个模型需要同时处理多种复杂任务时可能出现的能力稀释。同时，独立的判断智能体提供了更客观的质量控制，混合奖励机制确保了个体表现和团队协作的平衡。

Q3：MACT系统主要解决了现有AI模型的哪些问题？

A：MACT主要解决了三个关键问题：参数规模限制导致的性能不足，缺乏有效的自我纠错机制，以及在处理长篇文档和复杂推理任务时表现不佳的问题。通过多智能体协作和创新的纠错设计，系统在这些方面都有显著改善。