多伦多大学: 多模态AI的"视力"和"文字理解"为何不在一个频道上?
当我们看到一张棋盘照片和一串看起来像天书一样的字母数字组合"rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR"时,可能很难相信它们其实在描述完全相同的信息——同一个国际象棋开局位置。然而,这正是多伦多大学计算机科学系的唐振伟、焦迪凡、杨布莱尔和安德森·阿什顿教授团队在2025年发表于COLM会议的最新研究所关注的核心问题。这项发表于2025年8月的研究论文完整标题为《SEAM:SemanticallyEquivalentAcrossModalitiesBenchmarkforVision-LanguageModels》,感兴趣的读者可以通过arXiv:2508.18179v1访问完整论文。
当前的人工智能模型被称为"视觉-语言模型",就像是拥有眼睛和大脑的机器人,既能"看"图片,又能"读"文字。按理说,无论是给这些AI模型看一张国际象棋棋盘的照片,还是给它们看那串神秘的字母数字代码,它们都应该能得出相同的结论——因为这两种表达方式本质上传达的是同样的信息。然而现实情况并非如此简单。
研究团队发现了一个令人意外的现象:即便是最先进的AI模型,当面对语义上完全相同的信息时,如果这些信息以不同的方式呈现(比如图片versus文字),它们的表现会出现显著差异。这就好比一个人看地图很厉害,但是听路线描述就迷糊了,明明是同一条路线,只是表达方式不同而已。
为了深入研究这个问题,研究团队开发了一个名为SEAM的基准测试系统,全称是"跨模态语义等价基准"。这个系统的巧妙之处在于,它选择了四个有着标准化符号系统的领域:国际象棋、化学、音乐和图论。每个领域都有自己的"双语"表达方式——既有视觉图形,也有对应的文字符号系统。
在国际象棋领域,除了我们熟悉的黑白格棋盘图,还有一种叫做FEN记号的文字表示法,专业棋手经常使用这种简洁的代码来记录和分析棋局。化学领域有分子结构图和SMILES字符串两种表达方式,前者直观地展示原子和化学键的空间关系,后者则用一串特殊的字符来编码同样的信息。音乐世界里,五线谱是我们最熟悉的视觉表示,但还有一种叫做ABC记号的文字格式,能够用纯文本记录旋律和节奏。图论这个数学分支既可以用节点和连线的图形来表示网络关系,也可以用邻接矩阵这种数字表格来精确描述同样的连接模式。
研究团队精心设计了16个具体任务,每个领域包含4个不同类型的问题。以国际象棋为例,他们设计了战术分叉识别、合法走子判断、谜题求解和局面评估等任务。每个任务都准备了200道题目,总计3200个测试项目。这些题目的设计遵循一个关键原则:无论是看图片还是读文字描述,聪明的AI模型都应该能得出相同的答案,因为它们面对的本质上是同一个问题。
当研究团队用这套测试系统检验21个当前最先进的视觉-语言模型时,结果令人深思。从GPT-5到Claude-4,从开源的Qwen2.5到专有的InternVL系列,几乎所有模型都显现出了明显的"模态失衡"现象。简单来说,这些AI在处理文字信息时通常比处理图片信息表现更好,即便这些信息在本质上是相同的。
更有趣的是,不同领域的模态失衡程度并不一致。在国际象棋和化学领域,模型的视觉理解能力有时甚至能与文字理解能力媲美,偶尔还能略胜一筹。但是在音乐理解方面,文字输入几乎总是产生比图片输入更好的结果。而在图论任务中,这种差异变得更加明显,文字表示的邻接矩阵比图形化的网络图能让AI模型表现得更好。
研究团队深入分析了造成这种现象的原因,发现了两个主要的"罪魁祸首"。第一个问题出现在文字理解环节,具体表现为"分词错误"。当AI模型试图理解像SMILES化学式这样的特殊符号串时,它们的分词系统会将这些符号切割成毫无意义的片段。就像把一个完整的化学分子式"COC(=O)C(OC(C)(C)C)c1cc"错误地分解成"OC"、"cc"、"(["等无关片段,这就好比把一个完整的电话号码随意分段,让人根本无法理解原始信息。
第二个问题存在于视觉理解过程中,表现为"视觉幻觉"。当AI模型分析图形时,有时会"看到"实际上不存在的连接或元素。研究团队发现,这种问题在图论任务中尤其明显,当图形在转换成小块输入给视觉系统时,如果分割点恰好经过节点之间的连接线,模型可能会产生混乱,误认为存在实际上并不存在的连接路径。
为了验证他们的发现不是由视觉呈现的细节差异造成的,研究团队进行了稳健性测试。他们对图片进行了各种变换,包括分辨率调整、黑白转换和180度旋转等,结果发现这些变化对模型性能的影响微乎其微,变化幅度仅在1-3个百分点之间。这证明了观察到的模态失衡确实源于深层的理解机制差异,而非表面的视觉细节问题。
研究团队还发现了另一个有趣现象:不同模型之间的"跨模态一致性"相当低。换句话说,即便是面对语义相同的问题,不同的AI模型在处理视觉信息和文字信息时经常给出不同的答案,这种不一致性远超随机猜测的水平。这就像几个人看同一张地图和听同一个路线描述后,却对目的地有着完全不同的理解。
更深入的分析揭示了一个令人担忧的现象:即便是那些在标准测试中表现优秀的大型模型,在面对真正需要跨模态理解的任务时,它们的内部表征(可以理解为大脑中的"概念地图")在不同模态间并没有很好地对齐。通过可视化技术,研究人员发现,当模型处理同一概念的视觉和文字表示时,它们在内部"大脑空间"中的位置相距甚远,就像两个本应重合的概念被放在了完全不同的思维区域。
这项研究的意义远不止是发现了AI模型的一个技术缺陷。它揭示了当前"多模态"人工智能的一个根本性挑战:真正的智能应该能够无缝地在不同表示形式之间转换和推理,就像人类专家无论是看到化学结构图还是读到化学式都能立刻识别出同一个分子一样。
研究团队的工作为未来的AI发展指明了方向。他们建议开发针对特定领域的专用分词器,以更好地处理专业符号系统。同时,他们认为需要改进视觉处理机制,减少因图像分割导致的信息丢失和错误解释。更重要的是,未来的AI系统应该具备更强的跨模态转换能力,能够在内部将不同形式的相同信息映射到统一的概念空间中。
这项研究的另一个重要贡献是为AI评估建立了新的标准。SEAM基准测试系统现在已经公开发布,包括完整的数据集、代码和在线排行榜,为研究社区提供了一个客观评估模态平衡能力的工具。这就像为汽车行业建立了新的安全测试标准,不仅要看车子跑得多快,还要看它在不同路况下的一致性表现。
从更广阔的视角来看,这项研究提醒我们,真正的人工智能不应该只是在单一任务上表现出色的专家,而应该像人类一样具备灵活的跨模态理解能力。当我们向通用人工智能迈进时,确保AI系统能够以同样的深度和一致性理解各种形式的信息表达,将是一个至关重要的里程碑。
说到底,这项研究揭示了一个简单却深刻的道理:同一件事情可以用很多种方式来表达,但真正的理解应该超越表达方式的差异,抓住事物的本质。虽然当前的AI模型在这方面还有很大的改进空间,但正是这样的研究为我们指出了前进的方向,让我们离真正智能的机器又近了一步。
Q&A
Q1:SEAM基准测试系统是什么?它如何检验AI模型的跨模态能力?
A:SEAM是"跨模态语义等价基准"的简称,由多伦多大学研究团队开发。它通过四个有标准化符号系统的领域(国际象棋、化学、音乐、图论)来测试AI模型。每个领域都有视觉和文字两种表达同一信息的方式,比如国际象棋棋盘图片和FEN代码、化学分子结构图和SMILES字符串。系统包含16个任务共3200道题目,检验AI模型面对相同信息的不同表达形式时是否能给出一致答案。
Q2:为什么当前的视觉-语言AI模型会出现模态失衡现象?
A:研究发现两个主要原因:一是文字处理中的分词错误,AI系统会将专业符号串错误分割成无意义片段,比如把完整的化学式分解成"OC"、"cc"等碎片;二是视觉处理中的"视觉幻觉",AI在分析图形时可能"看到"不存在的连接,特别是当图像被分割成小块输入时容易产生误解。这些问题导致相同信息的不同表达形式产生不同的理解结果。
Q3:这项研究对未来AI发展有什么重要意义?
A:这项研究揭示了通向真正通用人工智能的关键挑战——跨模态理解一致性。它为AI评估建立了新标准,不仅要看模型在单一任务上的表现,还要检验其处理不同表达形式时的一致性。研究指出了改进方向:开发专业领域的分词器、改进视觉处理机制、增强跨模态转换能力。这对构建真正能像人类一样灵活理解各种信息表达的AI系统具有重要指导意义。