大型语言模型(LLMs)由于依赖静态训练数据,常常面临幻觉和过时知识的问题。检索增强生成(RAG)通过整合外部动态信息来缓解这些问题,从而增强事实性和更新性基础。最近的多模态学习进展促成了多模态RAG的发展,结合了文本、图像、音频和视频等多种模态,以增强生成的输出。然而,跨模态对齐和推理为多模态RAG带来了独特的挑战,这使其与传统的单模态RAG有所不同。本综述提供了对多模态RAG系统的结构化和全面分析,涵盖了数据集、度量标准、基准测试、评估、方法论以及在检索、融合、增强和生成中的创新。我们精确回顾了训练策略、鲁棒性增强和损失函数,同时也探讨了多样化的多模态RAG场景。此外,我们讨论了支持该领域进展的开放挑战和未来研究方向。本综述为开发更强大、更可靠的AI系统奠定了基础,这些系统能够有效利用多模态动态外部知识库。资源可在 https://github.com/llm-lab-org/Multimodal-RAG-Survey 获取。 1 引言与背景

近年来,语言模型取得了显著的突破,主要得益于变换器(Vaswani et al., 2017)的出现、计算能力的增强以及大规模训练数据的可用性(Naveed et al., 2024)。基础性大型语言模型(LLMs)(Ouyang et al., 2022;Grattafiori et al., 2024;Touvron et al., 2023;Qwen et al., 2025;Anil et al., 2023)的出现彻底改变了自然语言处理(NLP),展现了在广泛任务中的前所未有的能力,包括指令跟随(Qin et al., 2024)、复杂推理(Wei et al., 2024)、上下文学习(Brown et al., 2020)以及多语言机器翻译(Zhu et al., 2024a)。这些进展提升了各种NLP任务的表现,开辟了新的研究和应用途径。尽管取得了显著成就,LLMs仍面临重大挑战,包括幻觉、过时的内部知识以及缺乏可验证的推理(Huang et al., 2024a;Xu et al., 2024b)。它们依赖于参数化内存,限制了访问最新知识的能力,使其在知识密集型任务中的表现不如任务特定架构。此外,提供其决策的来源并更新世界知识仍然是关键的开放问题(Lewis et al., 2020)。 检索增强生成(RAG)

检索增强生成(RAG)(Lewis et al., 2020)作为一种有前景的解决方案应运而生,通过使LLMs能够检索和整合外部知识,从而提高事实准确性并减少幻觉(Shuster et al., 2021;Ding et al., 2024a)。通过动态访问庞大的外部知识库,RAG系统在增强知识密集型任务的同时,确保响应保持在可验证的来源中(Gao et al., 2023)。在实践中,RAG系统通过检索器-生成器管道运作。检索器利用嵌入模型(Chen et al., 2024b;Rau et al., 2024)从外部知识库中识别相关段落,并可选地应用重新排序技术以提高检索精度(Dong et al., 2024a)。这些检索到的段落随后传递给生成器,生成器结合外部上下文生成知情响应。RAG框架的最新进展(Asai et al., 2023;An et al., 2024;Lee et al., 2024;Liu et al., 2024c)引入了迭代推理过程,通过优化检索和生成阶段,使回答更加准确和可靠。然而,传统的RAG架构主要设计用于文本信息,这限制了其处理多模态挑战的能力,而多模态挑战需要整合多种数据格式。 多模态学习

与这些发展并行,多模态学习的显著进展通过使系统能够整合和分析异构数据源,为信息的整体表示提供了新的视角,从而重塑了人工智能。CLIP(对比语言-图像预训练)(Radford et al., 2021)的引入标志着连接视觉和文本信息的关键时刻,通过对比学习促进了后续许多模型和应用的发展(Alayrac et al., 2024;Wang et al., 2023;Pramanick et al., 2023)。这些突破推动了各个领域的进展,包括情感分析(Das and Singh, 2023)和前沿的生物医学研究(Hemker et al., 2024),证明了多模态方法的价值。通过使系统能够处理和理解文本、图像、音频和视频等多种数据类型,多模态学习已成为推动人工通用智能(AGI)(Song et al., 2025)发展的关键。 多模态RAG

将LLMs扩展到多模态LLMs(MLLMs)进一步增强了其能力,使其能够跨多种模态进行处理、推理和生成输出(Liu et al., 2023a;Team et al., 2024;Li et al., 2023b)。例如,GPT-4(OpenAI et al., 2024)通过接受文本和图像两种输入,在多个基准测试中表现出人类级别的性能,标志着多模态感知和交互的一个重要里程碑。在此基础上,多模态RAG系统通过结合图像和音频等多模态知识源,扩展了传统RAG框架,为生成提供丰富的上下文(Hu et al., 2023;Chen et al., 2022a)。这种整合不仅增强了生成输出的精度,同时利用多模态线索提高了MLLMs的推理能力。多模态RAG管道的基本流程如图1所示。然而,这些多模态系统也带来了独特的挑战,包括确定检索哪些模态、有效融合多种数据类型以及处理跨模态相关性的复杂性(Zhao et al., 2023)。 任务公式化

我们给出了多模态RAG系统的通用任务数学公式。这些系统针对一个查询q(通常是文本格式)生成一个多模态响应r。 设D = {d1, d2, ..., dn}为一个由n个多模态文档组成的语料库。每个文档di ∈ D与一个模态Mdi关联,并通过模态特定的编码器EncMdi处理:

相关工作

由于多模态RAG领域是新兴且迅速发展的,特别是在近年来,对于探索这些系统的当前创新和前沿的综述需求迫切。尽管已有超过十篇关于RAG相关主题的综述文章(如代理RAG(Singh et al., 2025)),但没有一篇详细全面地概述多模态RAG的进展。迄今为止唯一的相关综述(Zhao et al., 2023)通过根据应用和模态对相关文献进行分类。然而,我们的综述提供了一个更详细且创新驱动的视角,提供了详细的分类法,并深入探讨了新兴趋势和挑战。此外,自该综述发布以来,领域内已经取得了显著进展,对该主题的研究兴趣也显著增长。在本综述中,我们回顾了近年来发表的100多篇关于多模态RAG的论文,主要来自ACL文集和其他如ACM数字图书馆等资源库。 贡献

在本研究中,(i)我们提供了对多模态RAG领域的全面回顾,涵盖了任务公式化、数据集、基准、任务和领域特定应用、评估以及检索、融合、增强、生成、训练策略和损失函数的关键创新。(ii)我们引入了一个精确的结构化分类法(图2),根据其主要贡献对最先进的模型进行了分类,突出方法学进展和新兴前沿。(iii)为了支持进一步的研究,我们公开了包括数据集、基准和关键创新在内的资源。(iv)我们识别了当前的研究趋势和知识空白,提供了见解和建议,以指导该不断发展的领域的未来进展。

成为VIP会员查看完整内容
33

相关内容

定制化大型语言模型的图检索增强生成综述
专知会员服务
32+阅读 · 1月28日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
50+阅读 · 1月21日
大语言模型的终身学习综述
专知会员服务
70+阅读 · 2024年6月15日
《大型语言模型持续学习》综述
专知会员服务
87+阅读 · 2024年4月26日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
56+阅读 · 2024年4月18日
大型语言模型的高效提示方法综述
专知会员服务
72+阅读 · 2024年4月2日
《多模态大模型少样本自适应》综述
专知会员服务
98+阅读 · 2024年1月4日
专知会员服务
72+阅读 · 2021年7月21日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
61+阅读 · 2021年3月25日
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
32+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
27+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
446+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
23+阅读 · 2023年3月17日
VIP会员
相关VIP内容
定制化大型语言模型的图检索增强生成综述
专知会员服务
32+阅读 · 1月28日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
50+阅读 · 1月21日
大语言模型的终身学习综述
专知会员服务
70+阅读 · 2024年6月15日
《大型语言模型持续学习》综述
专知会员服务
87+阅读 · 2024年4月26日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
56+阅读 · 2024年4月18日
大型语言模型的高效提示方法综述
专知会员服务
72+阅读 · 2024年4月2日
《多模态大模型少样本自适应》综述
专知会员服务
98+阅读 · 2024年1月4日
专知会员服务
72+阅读 · 2021年7月21日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
61+阅读 · 2021年3月25日
相关资讯
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
32+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
27+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员