大规模视觉-语言模型的对齐与失齐:从可解释性的视角进行的综述

大规模视觉-语言模型(LVLMs)在处理视觉和文本信息方面展现出了卓越的能力。然而,视觉和语言表示之间的对齐问题仍然没有完全被理解。本综述通过可解释性的视角,全面探讨了LVLM中的对齐与失齐问题。我们首先考察了对齐的基本原理,探讨其表示层面、行为层面、训练方法和理论基础。接着,我们分析了在三个语义层面上的失齐现象:对象失齐、属性失齐和关系失齐。我们的研究表明,失齐问题源于多个层面的挑战:数据层、模型层和推理层。我们对现有的失齐缓解策略进行了全面回顾,并将其分类为冻结参数和调优参数两种方法。最后,我们提出了未来研究的有前景的方向,强调了标准化评估协议和深入可解释性研究的必要性。

1. Introduction

近年来,大规模视觉-语言模型(LVLMs)在多模态理解方面取得了显著进展。像GPT-4V(OpenAI)、Gemini(Team et al., 2023)、LLaVA(Liu et al., 2024b)、MiniGPT-4(Zhu et al., 2023)和LLaMa 3.2(Dubey et al., 2024)等模型在图像字幕生成和视觉问答等任务中展示了前所未有的能力,不仅能够独立处理视觉和文本信息,还能跨模态推理。这些进展基于两个基础支柱:大规模语言模型(LLMs)和视觉编码器。像GPT-3.5(Brown, 2020)、LLaMA(Touvron et al., 2023a)、LLaMA 2(Touvron et al., 2023b)、Vicuna(Chiang et al., 2023)和Qwen(Bai et al., 2023)等LLMs已经彻底改变了自然语言处理,而像CLIP(Radford et al., 2021)这样的视觉编码器则使得能够创建对齐的视觉和文本表示,从而实现有效的视觉-语言理解。

在开发有效的LVLM时,关键挑战之一是实现视觉和语言表示之间的适当对齐(Liu et al., 2024a)。主流的方法是使用表示对齐技术,其中图像编码器的视觉特征和LLM的文本表示被映射到一个共享的嵌入空间,通常匹配LLM的嵌入维度(Jia et al., 2021;Yang et al., 2022;Shu et al., 2024)。一旦两种模态被映射到这个共享空间,通过各种训练目标和架构设计,模型就能理解并推理跨模态关系。这种方法因其简单直接且在不同模型架构中具有良好的通用性而获得了广泛应用。

然而,目前对对齐机制的理解仍然有限。一个关键挑战是失齐现象,这种现象以各种形式表现出来。例如,当展示一张绿苹果的图像时,模型可能完全无法识别出苹果(对象失齐)、错误地描述为红色(属性失齐),或者在苹果实际上是放在桌子上时生成错误的关系,如“苹果漂浮在空中”(关系失齐)。这些失齐现象会导致模型输出的文本与视觉输入不一致,从而产生可靠性问题(Zhang et al., 2024;Zhou et al., 2024;Zhao et al., 2024e)。理解和解决这些失齐问题对于开发更可靠和可信赖的LVLM至关重要,因为它们直接影响模型生成准确和一致的多模态输出的能力。

在本综述中,我们提出了一个结构化框架,通过可解释性的视角来理解和解决LVLM中的对齐挑战。我们首先检查了对齐的基本原理,包括其表示层面和行为层面、训练过程和理论基础。然后,我们分析了在三个语义层面上的失齐现象:对象失齐、属性失齐和关系失齐。我们的研究揭示了失齐问题源自数据层(如质量和均衡问题)、模型层(如架构限制和能力差距)和推理层(如任务差异)的挑战。我们回顾了现有的失齐缓解策略,并概述了未来的研究方向,强调了标准化评估协议和深入可解释性研究的必要性。

2. Alignment of LVLMs

在本节中,我们将从四个重要维度考察LVLM的对齐问题。首先,我们定义LVLM中的对齐概念。其次,我们详细说明了实际中实现对齐的过程阶段。第三,我们探索了使视觉和语言模态之间实现对齐的理论基础。最后,我们讨论了衡量和评估LVLM对齐的方法。

2.1 What is Alignment?

在LVLM的背景下,设X为图像空间,T为文本空间。我们将对齐定义为两个基本方面:表示对齐和行为对齐。

  • 表示对齐:表示对齐是指模型内部嵌入空间E中,视觉表示v ∈ V和文本表示t ∈ T之间的对应程度。当对齐良好时,来自图像的视觉特征和其对应描述的文本嵌入将在共享的潜在空间中占据相近的位置,展示出高语义相似性d(v, t),其中d是相似性度量。这种内部对齐使得模型能够在基本层面上建立视觉和语言信息之间的有意义的联系。

  • 行为对齐:行为对齐是指模型在处理图像输入x ∈ X时,生成准确、真实且一致的文本响应y ∈ Y的能力。一个行为对齐良好的LVLM能够可靠地回答关于视觉内容的问题、提供精确的描述,并执行推理任务而不引入错误或幻觉。这种外部表现确保了模型的输出真实反映图像中的实际内容和关系。

这两种对齐是相互关联的。强表示对齐通常支持更好的行为对齐,因为模型可以更有效地利用视觉和文本信息生成可靠的输出。相反,在任何一方面的对齐不良都可能导致如表示不匹配、响应不准确或内容幻觉等问题。

2.2 How is Alignment Achieved?

LVLM对齐的发展通过三个主要阶段(见图1)进行,每个阶段都基于前一个阶段的基础,逐步实现更复杂的跨模态集成。

阶段1:训练视觉编码器

LVLM对齐的基础始于通过对比学习训练视觉编码器,例如CLIP(Radford et al., 2021)。在这个阶段,模型通过对比损失函数,在共享的嵌入空间中对齐视觉和文本表示。该过程涉及对大规模的图像-文本对进行训练,其中匹配的对在嵌入空间中被拉近,而不匹配的对则被推远。通过这个过程,模型能够创建出能够与语言自然对齐的有意义的视觉表示。这个初始阶段非常关键,因为它建立了跨模态理解的基本能力,但对齐仍然相对粗略。

阶段2:适配器微调

第二阶段涉及微调适配器模块,连接预训练的视觉编码器和语言模型。该阶段引入了轻量级的适配器架构,通常由简单的组件(如线性层、MLP或交叉注意力层)组成,旨在学习在视觉和语言模型嵌入空间之间进行转换。例如,交叉注意力层可以将图像编码器的表示输入到语言模型中,使模型在生成文本时能够关注相关的视觉特征(Meta AI, 2024)。这一方法的关键特征是保持视觉编码器和语言模型的原始能力,同时学习如何在它们之间建立接口。在适配器训练过程中,虽然视觉编码器的参数可能会更新,但语言模型的参数通常保持冻结,以保持其原有的文本能力。这个中间阶段对于在保持每个组件专门能力的同时建立有效的跨模态连接至关重要。

阶段3:端到端微调

最终阶段涉及对整个系统进行综合微调,包括视觉编码器、适配器和LLM组件的联合训练。这个全面的方法允许更深层次的集成,并在所有组件之间实现更复杂的对齐。它使得模型能够学习需要在所有模块中协调调整的任务特定优化。通过这个过程,模型能够发展出更先进的跨模态理解能力,并促进来自视觉和语言处理深度集成的突现行为。这个阶段通常能够获得最高的性能,但需要小心平衡,以避免灾难性遗忘或已有能力的退化。

2.3 Why is Alignment Possible?

在确立了什么是对齐以及如何在LVLM中实现对齐后,提出了一个基本问题:为什么视觉和语言模态之间的对齐在首先是可能的呢?

理论视角

从理论角度来看,视觉数据和文本数据是对同一基础现实的不同投影。正如Huh等人(2024)在其“柏拉图表征假说”中所论述的,所有模态都是对生成我们观察的现实世界的测量。当人类创建图像或撰写文本时,他们是在编码有关这个相同现实的信息,尽管通过不同的测量过程。尽管这些模态在表面上看起来有所不同,但它们从根本上捕捉到关于同一世界状态的重叠语义信息。它们共享物理现实这一根源,再加上人类生成这两种数据的目的是描述他们对世界的观察,这为为什么这些模态可以在一个共同的表示空间中进行有意义对齐提供了理论基础。

算法视角

从算法角度来看,尽管视觉编码器和语言模型最初是在不同模态特定数据上单独训练的,它们所学习到的表示在本质上捕捉到了一些相似的语义结构,因为它们的训练数据来源于人类生成的数据。近期研究表明,这些内在的相似性甚至在显式对齐训练之前就已经存在(Maniparambil et al., 2024;Sharma et al., 2024;Neo et al., 2024)。这种自然的兼容性为更复杂的对齐提供了起点。前面在2.2节中描述的逐步训练过程基于这种内在的兼容性,经过系统的细化:首先通过对比学习组织共享潜在空间中的嵌入,然后通过适配器微调实现模态间的桥接,同时保持各自的专门能力,最后进行端到端训练,实现所有组件的深度集成。通过这种系统化的训练阶段和优化目标的组合,模型逐步发展出视觉和语言模态之间的强大对齐。

2.4 How to Measure Alignment?

本节探讨了量化LVLM中对齐效果的方法。这些测量方法自然与2.1节中表示对齐和行为对齐的定义相一致,可以从这两个基本层面进行组织。

表示层面

在表示层面,可以通过评估视觉和文本模态如何编码和关联相同的概念或数据点,直接衡量它们在LVLM嵌入空间中的对齐程度。最简单的方法是计算视觉数据和文本数据嵌入之间的余弦相似度。高对齐对应接近1的得分,而低对齐对应接近0的得分(Shu et al., 2024)。为了更精细地评估表示之间的对齐性,已开发了更复杂的度量方法。例如,互相最近邻度量通过评估跨模态的最近邻一致性来量化对齐(Huh et al., 2024)。另一种方法是核对齐,它评估每个模态嵌入空间中成对关系的相似性,提供对齐结构的整体视图(Maniparambil et al., 2024)。

行为层面

行为层面通过模型在各种下游任务和基准测试中的表现来衡量对齐程度,采用直接比较和自动化评估系统。对齐的强度直接影响LVLM的性能,因为较好的对齐通常会带来更好的任务结果。这些测量通常涉及将模型的输出与地面真实标签进行比较,无论是通过直接比较,还是通过使用评估模型来模拟人工判断。为评估LVLM对齐,已经开发了许多基准测试,从粗粒度评估(例如,物体存在性)到细粒度评估(例如,颜色、数量、空间关系)。例如,POPE(Li et al., 2023b)、CHAIR(Rohrbach et al., 2018)、MME(Fu et al., 2023)、MMHal-Bench(Sun et al., 2023)和LLaVa-Bench(Liu et al., 2024b)等基准测试可以用来评估各种任务中的LVLM对齐。除了传统的基准测试,高级评估模型如GAVIR(Liu et al., 2023)、CCEval(Zhai et al., 2023)和HaELM(Wang et al., 2023)则通过考虑上下文并全面评估响应,提供更为复杂的评估,类似于人工评审。评估模型的灵活性和多样性为开放式问题提供了全面的测量能力。

3 Misalignment of LVLMs

在介绍了LVLM的对齐之后,我们现在来探讨这些模型面临的一个关键挑战:它们在生成输出时常常与视觉输入不一致。尽管在对齐技术上取得了显著进展,LVLMs仍然频繁表现出视觉输入和文本输入之间的失齐现象。在本节中,我们将对LVLM中的失齐现象进行全面分析,首先定义和分类不同类型的失齐(见图2),然后探讨这些失齐现象的潜在原因。

4 缓解方法

基于我们对LVLM中失齐原因的分析,接下来我们将探讨缓解这些挑战的策略(见图3)。这些缓解方法可以分为两类:参数调整对齐方法参数冻结对齐方法。参数调整对齐方法涉及通过有针对性的参数更新,修改LVLM架构中的特定组件,以减少失齐现象。相反,参数冻结对齐方法在保持LVLM原始参数不变的同时解决失齐问题,提供了在保持模型结构的基础上提高跨模态对齐能力的解决方案。

5 未来研究方向

在本节中,我们讨论了未来在理解和改进LVLM对齐方面的几项重要研究方向。

**5.1 标准化基准测试

目前LVLM中失齐的评估存在一个关键限制,即缺乏标准化的全面基准测试,无法系统地评估不同类型的失齐现象。尽管现有的基准测试作出了重要贡献,但它们通常专注于单一方面的失齐现象。例如,POPE(Li et al., 2023b)主要评估对象幻觉,而其他基准则集中于特定关系错误或属性不一致性。亟需的是一个统一的评估框架,能够系统地评估所有语义层次上的失齐,从对象级别(例如,描述图像中不存在的狗)到属性级别(例如,颜色、大小、纹理错误)以及关系级别的失齐(例如,空间关系错误)。这样的全面基准将使得不同LVLM架构和对齐技术之间能够直接比较,使用标准化指标,评估表示对齐和行为对齐,并评估失齐在不同任务中的表现。该基准还应考虑不同类型失齐的频率和严重性,而不是将所有失齐现象视为同等严重。开发这样的标准化基准将是我们理解LVLM中失齐现象的重要一步,并推动更可靠和可信的视图-语言系统的进展。

**5.2 基于可解释性的诊断

为了更好地理解和解决LVLM中的对齐问题,未来的研究应利用先进的可解释性技术,以揭示这些模型的内部机制。可解释性方法主要包括两大类:(1)内部知识解码方法,和(2)归因方法。 第一类可解释性方法侧重于内部知识解码,帮助我们理解LVLM如何处理信息(Zhao et al., 2024b,a)。机制性可解释性方法可以帮助识别LVLM中负责跨模态对齐的特定组件和电路,从而提供关于视觉和语言表示如何整合和处理的洞见。类似地,探测技术可以分析跨不同层和注意力头的对齐表示的出现和演变,帮助研究人员了解模型架构中失齐发生的位置和方式(Zhao et al., 2024c)。对内部工作机制的详细理解,不仅能推动理论知识的发展,还可以为开发更有效的对齐技术提供指导。 第二类关键方法是归因方法,它能够确定不同信息源对模型输出的相对影响。LVLM生成输出时有三个主要信息源:用户的文本提示、输入图像和预训练语言模型中存储的知识。未来的研究需要开发精细的归因算法,确定模型的输出主要依赖于文本提示、图像中的视觉信息,还是语言模型的内部知识。这种详细的归因分析有助于识别失齐发生的时机和原因,例如模型不恰当地依赖语言模型知识而非视觉证据,或未能正确整合来自多个源的信息。这些见解将有助于设计针对特定类型失齐的缓解策略,从而提高LVLM的整体可靠性。

**5.3 架构创新

目前的LVLM架构面临着根本性的挑战,包括视觉编码器和语言模型之间存在显著的能力差距、模态之间的注意力不平衡以及视觉和语言表示之间的知识冲突。尽管大多数现有解决方案集中于改进训练过程或添加后处理步骤,未来的研究应重点关注架构创新,以解决这些结构性限制。这可以包括开发新的集成机制,更好地平衡视觉和语言组件的能力,以及可以自适应调整注意力机制的动态架构,以保持模态之间的平衡。该领域还可以受益于多阶段处理架构,明确通过为不同层次的语义理解设计专门组件来管理知识冲突。此外,专门为视图-语言任务设计的新型Transformer架构,而非从单模态架构调整过来的架构,可能有助于弥合视觉和语言处理之间的能力差距。


6 结论

在本文中,我们通过可解释性的视角对LVLM的对齐与失齐进行了系统的调查。我们的研究表明,实现适当的对齐涉及数据质量、模型架构和推理过程之间的复杂交互。我们对失齐现象进行了分类,将其分为对象、属性和关系三个层次,为理解这些挑战和开发有针对性的解决方案提供了清晰的框架。对当前缓解策略的审视揭示了一系列方法,从计算开销较大的参数调整方法到更为实用的参数冻结方法,每种方法在效果与实现可行性之间有不同的权衡。最后,我们确定了几项未来研究的关键方向,这些方向对构建更可靠和更具能力的视图-语言系统至关重要,能够在保持强大对齐能力的同时,服务于多样的现实应用。

成为VIP会员查看完整内容
24

相关内容

多模态大规模语言模型基准的综述
专知会员服务
36+阅读 · 2024年8月25日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
33+阅读 · 2024年7月30日
视觉语言导航:大模型时代的综述
专知会员服务
47+阅读 · 2024年7月10日
扩散模型与表示学习:综述
专知会员服务
46+阅读 · 2024年7月2日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
43+阅读 · 2024年4月30日
超越思维链:大型语言模型的X链范式综述
专知会员服务
42+阅读 · 2024年4月28日
多模态视觉语言表征学习研究综述
专知会员服务
192+阅读 · 2020年12月3日
面向多智能体博弈对抗的对手建模框架
专知
12+阅读 · 2022年9月28日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
VIP会员
相关VIP内容
多模态大规模语言模型基准的综述
专知会员服务
36+阅读 · 2024年8月25日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
33+阅读 · 2024年7月30日
视觉语言导航:大模型时代的综述
专知会员服务
47+阅读 · 2024年7月10日
扩散模型与表示学习:综述
专知会员服务
46+阅读 · 2024年7月2日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
43+阅读 · 2024年4月30日
超越思维链:大型语言模型的X链范式综述
专知会员服务
42+阅读 · 2024年4月28日
多模态视觉语言表征学习研究综述
专知会员服务
192+阅读 · 2020年12月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员