大型视觉语言模型(LVLMs)通过在大型语言模型(LLMs)的基础上整合视觉模态,增强了用户交互并丰富了用户体验。它展现了强大的信息处理和生成能力。然而,幻觉现象的存在限制了LVLMs在各个领域的潜力和实际效用。尽管已有大量工作致力于幻觉的减缓与纠正,但针对这一问题的综述性研究却较为少见。在本次综述中,我们首先介绍了LVLMs和幻觉现象的背景。随后,介绍了LVLMs的结构以及幻觉生成的主要原因。接着,我们总结了近期在幻觉纠正和减缓方面的相关工作。此外,我们还从判断性和生成性角度介绍了LVLMs幻觉评估的可用基准。最后,我们提出了一些未来的研究方向,以增强LVLMs的可靠性和实用性。
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了优异的成绩。基于Transformer的LLMs通过在大规模语料库上学习语言模式和知识,获得了理解和生成自然语言的能力。许多LLMs在NLP领域中涌现,如GPT-4 [1]、Llama [2]、InstructGPT [3]、PaLM [4]和Vicuna [5]。在大规模语料库和大量参数的支持下,这些LLMs能够完成广泛的任务,并展示出强大的零样本能力。尽管LLMs具有令人兴奋且稳健的特性,但它们仅限于文本领域。越来越多的研究提出将视觉信息融入LLMs中,这些新模型称为大型视觉语言模型(LVLMs),可应用于多种场景,如医疗诊断与辅助[6]、[7],艺术与娱乐[8],自动驾驶[9],虚拟助手和聊天机器人[10]、[11]。凭借其出色的性能,LVLM吸引了众多用户。然而,一些用户发现,LVLM生成的信息在事实层面上是错误的,但看似合理,例如错误地报告不存在的物体、物体属性、行为和物体间关系。上述现象被称为幻觉,这使得LVLM难以应用于对准确性和可靠性要求较高的场景中。例如,幻觉可能会误导用户,提供错误或不准确的信息,甚至在内容摘要或信息检索中导致错误信息的传播。如果LVLM频繁生成幻觉,可能会影响其发展。因此,纠正或减缓幻觉对于LVLMs来说是必要的。
为了构建一个可信赖的LVLM,幻觉是必须克服的障碍。因此,出现了大量关于减缓或纠正LVLM幻觉的研究工作。目前,已有几篇综述总结了LLMs中的幻觉纠正工作[12]、[13]。在多模态领域,也有部分工作[14]、[15]致力于总结多模态大型语言模型中的幻觉现象。然而,我们的综述采用了明显不同的分类策略。我们根据不同幻觉纠正工作的核心思想以及幻觉评估基准进行了分类。
在本文中,我们对LVLM幻觉现象的最新进展进行了综述。首先,我们介绍了与LVLM和幻觉相关的背景知识。在第二节中,我们提供了LVLM的结构及其产生幻觉的主要原因。第三节总结了幻觉的纠正和减缓工作。接下来,第四节中我们介绍了用于评估LVLM幻觉的基准。最后,在第五节中,我们对LVLM幻觉纠正的未来前景提供了一些见解,并描绘了潜在的研究方向。
LVLMs可以分为三个模块:感知模块、跨模态模块和响应模块,如图1(A)所示。通过这三个模块,视觉信息被提取并映射到文本空间。进一步地,视觉信息和文本信息结合以生成最终的响应。 感知模块通常使用视觉Transformer(ViT)[16]或其变体[17]将图像转换为高维向量。在输入ViT之前,图像被分割成若干patch,并添加位置信息。如图1(A)所示,ViT是一个仅包含编码器的模型,由N个编码器组成。编码器的多头注意力机制是Transformer模型的核心组件,具有强大的并行计算能力,能够在序列的不同部分之间建立联系。 跨模态模块旨在弥合视觉和语言之间的模态差距[18]。近年来,LVLMs中的跨模态模块采用了可学习接口[10]、[19]、Q-former[20]和pereceiver resampler[21]等结构。可学习接口基于投影矩阵将视觉信息映射到文本空间。Q-former通过与文本交互视觉信息来弥合模态间的差距。pereceiver resampler通过使用交叉注意力将视觉特征编码到文本中。 响应模块充当LVLMs的大脑。因此,它需要强大的能力来处理和分析视觉和文本的输入,以生成最终答案。响应模块通常采用LLMs,如Vicuna [5]、Llama [2]、Flan-PaLM [22]和Llama2 [23]。ViT和LLM都是基于Transformer的,但LLM是仅包含解码器的结构。解码器的掩码多头注意力机制增加了掩码操作。因此,LLM在文本生成过程中无法利用“未来”信息,确保了生成内容的真实性。
有几个因素导致LVLM产生幻觉。幻觉的发生可能与LVLM的多个部分有关,包括感知模块、跨模态模块和响应模块。因此,为了更好地纠正和减缓幻觉,我们将幻觉现象的主要原因归纳如下:
模态差距:每种模态都有其独特的特性和表达方式,这导致了不同模态数据在分布、特征和语义上的显著差异。模态差距的存在使响应模块在理解图像输入时产生偏差,导致错误的响应生成。例如,如图1(B)所示,红白相间的物体实际上是一个标志,而不是中文字符。由于模态差距的存在,响应模块错误地将其描述为“红白相间的中文字符”。
数据集中的有害信息:交叉熵损失的本质是模仿。因此,LVLMs从数据集中学习模式以生成与训练数据相似的响应。由于LVLMs需要大量数据进行训练,大多数数据集是通过LVLMs或LLMs生成的。尽管这些数据在生成后经过人工清理,仍有一定比例的误导性样本保留在数据集中。当LVLM从这些带有幻觉的数据中学习时,必然会生成幻觉。
LLM的幻觉:LVLMs的优异表现主要归功于其将LLMs作为“大脑”。然而,LLMs很容易产生幻觉。此外,LLMs已经积累了丰富的参数化知识。当这些参数化知识错误或与接收到的视觉信息冲突时,会导致幻觉。此外,可用解码策略的随机性也可能是幻觉的诱因。许多特殊现象通常在解码过程中发生,并且与幻觉密切相关。
III. 幻觉的纠正 在本部分中,我们将回顾和总结近年来与LVLM(大型视觉语言模型)中幻觉现象相关的纠正与减缓工作。随着LVLM在各个领域的广泛应用,如何有效地减少其生成不准确或错误的内容(即幻觉)成为了一个重要的研究方向。幻觉的产生与数据集、模态差距以及输出响应的生成机制密切相关,因此幻觉纠正的方法主要集中在以下三类:数据集去幻觉、模态差距补偿以及输出纠正。我们将对这三类方法进行详细介绍,分析各自的工作原理和应用场景。
数据集去幻觉是通过改进或清理训练数据集,以减少或避免模型在推理过程中生成幻觉内容的一种有效方法。LVLM通常通过指令调优来增强推理性能,而这一过程对高质量、大规模的指令数据集有高度依赖。然而,现实中构建这样的数据集并不容易,即便有LLMs或LVLMs的帮助也很难确保数据完全无误。因此,通过对现有数据集进行改写、去除过度自信样本和打破不当共现现象成为解决这一问题的重要策略。
数据重写 数据重写是指对训练数据中的错误信息或潜在误导性样本进行修改,以确保模型学到的信息更加准确。例如,针对某些数据中由于标注错误或不准确导致的幻觉现象,可以通过自动化工具或人工验证的方式,识别并纠正这些问题。数据重写的方法可以帮助LVLM在训练时避免学习到有害的或不准确的信息,从而减小幻觉的生成概率。
去除过度自信 在LVLM的训练过程中,有些数据会使模型对某些错误的或不确定的输出表现出过度的自信。这种过度自信会使模型在推理阶段产生幻觉。为了解决这一问题,研究者提出了一些方法来降低模型在面对不确定输入时的自信水平。例如,通过调整损失函数,使模型在训练过程中对不确定的样本保持一定程度的怀疑,从而避免模型生成看似合理但实际上错误的响应。
打破共现现象 共现现象是指在训练数据中,某些视觉元素和文本描述频繁一起出现,导致模型在推理时不加区分地将这些元素联系在一起。例如,某些物体和某些动作在数据集中经常共现,但在实际场景中这些组合并不总是正确的。为了解决这一问题,可以通过打乱数据集中这些元素的组合,或引入新的样本,以减少这种共现现象对模型产生的负面影响。
模态差距是LVLM中幻觉产生的一个重要原因。由于视觉信息和文本信息之间的特性差异,模型在融合这些多模态数据时,可能会产生错误的推断。通过有效的跨模态模块设计,可以弥合视觉和语言之间的差距,减少因模态不匹配导致的幻觉现象。
可学习接口的应用 可学习接口是一种基于投影矩阵的方法,它将视觉信息映射到文本空间。这种方法通过学习视觉和语言之间的对应关系,使模型能够更好地理解视觉信息并将其与文本结合。通过这种方式,模型能够在视觉和语言之间建立更加紧密的联系,从而减少幻觉的产生。
Q-former的引入 Q-former是一种通过交互方式将视觉信息与文本信息连接起来的技术。它通过设计一种特殊的查询机制,使视觉信息在跨模态过程中与文本信息进行交互。这种方法能够更好地处理模态之间的差异,尤其是在复杂的视觉场景中,帮助模型准确地生成文本描述。
pereceiver resampler的使用 pereceiver resampler是一种使用交叉注意力机制的技术,旨在将视觉特征编码到文本中。通过这种方法,视觉特征被转换为与文本相匹配的表征,从而减少模态差距导致的幻觉现象。
除了通过改进数据集和跨模态机制来减少幻觉,研究人员还致力于直接纠正模型输出的幻觉内容。输出纠正方法通过后处理技术或改进解码策略,来确保模型生成的最终响应更加准确。
后处理机制 后处理机制是一种在模型生成响应之后对其进行检查和修正的技术。例如,通过引入额外的验证模块,检查生成的文本是否与视觉信息一致。如果发现生成内容存在逻辑或事实错误,可以通过该模块进行修正。这样的后处理机制可以有效减少模型生成幻觉的可能性。
解码策略的优化 解码策略对生成式模型的输出有很大的影响。研究发现,某些解码策略(如贪婪搜索或随机采样)容易引发幻觉现象。为了解决这一问题,研究人员提出了一些新的解码策略,例如基于约束的采样方法或对抗性解码策略。这些方法通过更好地平衡生成的多样性和准确性,减少了模型生成幻觉的概率。
在减缓和纠正LVLM幻觉的过程中,建立有效的评估基准是至关重要的。评估基准用于衡量模型在生成过程中出现幻觉的频率和严重程度,同时也为模型改进提供反馈。我们从判断性和生成性两个角度总结了现有的幻觉评估基准。
判断性基准 判断性基准主要通过分析模型生成的响应是否符合事实或是否与视觉输入一致来评估幻觉。例如,通过引入人工评估或使用预定义的规则来判断模型生成的内容是否准确。这类基准侧重于定量地评估幻觉现象,帮助研究人员了解幻觉在不同场景中的发生频率。
生成性基准 生成性基准则侧重于评估模型在生成过程中所表现出的创造性和合理性。尽管模型可能生成出具有一定创新性的内容,但这些内容不一定符合事实或逻辑。因此,生成性基准的评估主要关注模型是否能够在保持生成多样性的同时,减少幻觉的产生。
尽管当前LVLM在减少幻觉方面取得了一定进展,未来仍有很多值得探索的方向。以下是一些可能的研究方向: 1. 多模态融合的优化 进一步优化视觉与语言之间的融合机制,特别是在复杂场景中的跨模态理解和表达。 1. 数据集构建的改进 通过新的数据增强和数据清洗技术,构建更高质量、更具代表性的大规模数据集,以减少训练数据中的幻觉样本。 1. 模型透明性的提高 提高LVLM的透明性和可解释性,使得用户可以更清楚地理解模型生成幻觉的原因,从而对其进行有效的纠正。 1. 动态学习机制的引入 引入动态学习机制,使模型能够在运行过程中不断调整和修正自身,避免幻觉的累积效应。