多模态检索增强生成(Multimodal Retrieval-Augmented Generation,MRAG) 代表了在提升大语言模型(Large Language Models,LLMs)能力方面的一项重大进展。MRAG 通过将多模态数据(如文本、图像和视频)引入检索与生成过程,从而扩展了 LLMs 的应用边界。

传统的检索增强生成(Retrieval-Augmented Generation,RAG) 系统主要依赖文本数据,在动态引入外部知识以减少幻觉现象、提升响应准确性方面已展现出显著成效。然而,这些系统受限于“仅文本”模态的约束,难以充分利用多模态数据中蕴含的丰富上下文信息。 MRAG 通过扩展 RAG 框架,引入多模态检索与生成模块,从而实现更全面、更加具有上下文相关性的响应。在 MRAG 中,检索步骤 旨在从多种模态中定位并整合相关知识,而生成步骤 则利用多模态大语言模型(Multimodal Large Language Models,MLLMs)生成融合多种数据类型信息的答案。 该方法不仅显著提升了问答系统的响应质量,还通过将生成内容锚定在真实的多模态知识上,进一步降低了幻觉的发生概率。最新研究表明,MRAG 在需要图文信息共同理解与回应的场景中,相较传统文本模态 RAG 展现出更优的性能。 本综述系统回顾了 MRAG 当前的研究现状,重点围绕四个关键方面展开分析:核心组件与关键技术、数据集、评估方法与指标,以及现有局限性。通过这些维度的系统剖析,我们旨在提供对 MRAG 构建与优化的全面理解。

此外,本文还指出了当前所面临的主要挑战,并提出未来的研究方向,鼓励学术界和产业界进一步探索这一前沿范式。我们的工作强调了 MRAG 在革新多模态信息检索与生成方面的巨大潜力,并提供了一个面向未来的发展视角。

1 引言

大语言模型(Large Language Models,LLMs),尤其是基于 Transformer 的模型,在众多语言相关任务中取得了非凡的成功。通过在大规模、高质量的指令数据集上进行预训练,LLMs 能够学习多种语言模式、结构及事实性知识。这些预训练模型能够生成具有高度流畅性和连贯性的人类语言文本,并在问答任务中展现出优异的性能,显示出其在理解和响应广泛问题方面的强大能力。 然而,尽管具备令人印象深刻的能力,LLMs 仍面临显著的限制。其中一个主要挑战是在特定领域或知识密集型任务中的表现。尽管这些模型通常在多样且大规模的数据集上进行训练,但这些数据集可能并不涵盖某些高度专业化领域所需的深度知识,或缺乏对实时信息的更新能力。这在医疗、法律、金融等对准确性和时效性要求极高的技术领域尤为突出。当面对超出其训练知识范围或依赖最新信息的问题时,LLMs 可能会生成基于模式而非真实事实的推测性回答,从而产生误导性、不准确甚至完全虚构的内容,这种现象被称为“幻觉”(hallucination)。减少幻觉的发生,对于提升 LLMs 在各类任务中提供准确且具上下文相关信息的能力至关重要。

近年来,检索增强生成(Retrieval-Augmented Generation,RAG) 作为一种有效缓解幻觉的方法应运而生。RAG 通过引入相关的外部知识增强 LLMs 的生成能力,显著提升了模型的可靠性。典型的 RAG 系统采用两阶段流程:检索与生成。在检索阶段,目标是从大规模文档集合中快速定位与查询语义相关的知识。由于相关知识往往分散在文档的不同部分,因此文档会被预处理为多个片段,必要时还会通过人工或自动方式生成附加片段。这一过程被称为文档分块(chunkerization),其目的在于更高效地获取细粒度知识。 在生成阶段,检索到的文档片段将与用户查询组合,形成增强输入,从而为 LLM 提供包含外部知识的上下文信息。此外,RAG 允许 LLM 在推理阶段动态整合最新信息,使得模型生成的响应不仅依赖静态的预训练知识,还能够不断引入当前的相关数据。通过引入和参考外部知识,RAG 能够将生成结果锚定在真实的信息上,从而显著减少幻觉现象。 然而,现有对 RAG 系统的研究主要集中于构建基于纯文本的知识库及基于文本预训练的 LLM,忽视了现实世界中大量可用于问答响应的丰富知识来源,如图像和视频等多模态数据多模态数据指来自多种来源或格式的数据,涵盖文本、图像、音频、视频等。在现实应用中,人类通常以多模态方式进行信息交互,例如浏览网页时会同时处理文本、图像与视频内容。通过图文并茂地分析信息,用户能够更全面地理解上下文,从而提升对答案质量的满意度。例如,若乘客咨询如何存放随身行李,系统若能提供相关的图示指南或操作视频,将更有助于理解。然而,将 LLM 的能力迁移至多模态文本与图像领域仍是一个活跃研究方向,因为传统 LLM 多仅基于文本语料训练,缺乏对视觉信号的感知能力。因此,如何有效整合多模态数据以增强 LLM 的能力,是当前的重要研究问题。 近年来,多模态生成模型的发展展示了更广泛的应用潜力。除了传统的文本生成模型,多模态生成模型已逐渐应用于人机交互、机器人控制、图像检索、语音生成等领域。相应地,基于多模态生成模型和多模态数据,如何高效处理多模态检索增强生成(Multimodal Retrieval-Augmented Generation,MRAG) 也成为一个亟需深入探索的问题。 近期已有研究表明,结合多模态数据的 MRAG 系统在性能上优于传统的文本模态 RAG。通过检索外部多模态知识增强多模态大语言模型(Multimodal Large Language Models,MLLMs)的生成能力,MRAG 可进一步提升问答的准确性与质量,从而更有效地缓解幻觉问题。 文本模态 RAG 与 MRAG 的主要差异体现在检索与生成两个阶段。在检索阶段,前者仅需考虑从文档集合中获取与查询相关的文本知识,而后者需考虑如何从不同模态中检索并整合相关知识,以及不同模态知识之间的关联。在生成阶段,文本模态 RAG 仅需基于文本查询和相关文本知识生成文本答案;而 MRAG 需处理来自不同模态的输入查询与多模态检索结果,并基于 MLLM 生成包含多模态信息的响应。 鉴于 MRAG 在该领域的巨大潜力,本文旨在系统回顾与分析当前 MRAG 的研究现状与主要挑战。我们从以下几个关键视角出发进行探讨:

MRAG 涉及哪些核心组件与关键技术?

MRAG 可用哪些类型的数据集进行评估?

MRAG 的评估方法与指标有哪些?

当前 MRAG 在各方面存在哪些限制?

我们将分析 MRAG 所面临的主要挑战,期望为其未来发展提供更明确的研究指引。 综上所述,本文的主要贡献如下: * 全面及时的综述:我们对新兴的多模态检索增强生成范式进行了系统综述,全面回顾了该领域的研究与发展现状; * 四个关键视角的系统分析:从核心组件与技术、数据集、评估方法与指标、现有局限性四个方面展开,深入剖析 MRAG 的构建方法、可靠性问题及优化路径; * 挑战与未来研究方向:系统总结了当前 MRAG 面临的技术挑战,指出潜在的研究机会与发展方向,旨在为该领域提供前瞻性参考,推动更多研究者深入探索这一前沿方向。

在本综述的总体介绍之后,第 2 节将对多模态检索增强生成的发展阶段进行全面回顾;第 3 节将深入分析其技术细节,重点讨论多模态检索、多模态生成等关键组件;第 4 节探讨如何利用多样化数据集对 MRAG 系统进行综合评估;第 5 节介绍 MRAG 系统的相关评估指标;第 6 节概述当前 MRAG 面临的技术挑战;第 7 节基于前文调研总结未来研究方向并提出建议;最后,第 8 节对全文进行总结。

2 MRAG 概述

多模态检索增强生成(Multimodal Retrieval-Augmented Generation,MRAG) 是对传统 检索增强生成(Retrieval-Augmented Generation,RAG) 框架的重要演进,它在继承 RAG 基础结构的同时,进一步扩展了对多模态数据的处理能力。与仅支持纯文本处理的 RAG 不同,MRAG 引入了图像、音频、视频以及文本等多模态数据,使其能够应对现实世界中更加复杂和多样化的应用场景,在多模态信息交织的环境中展现出更强的适应性。 在 MRAG 发展的早期阶段,研究者通常将多模态数据转换为统一的文本表示形式。这一策略能够利用现有的基于文本的检索与生成机制,实现从 RAG 到 MRAG 的平滑过渡。尽管这种方法简化了多模态数据的集成流程,并优化了端到端的用户体验,但其也带来了明显的局限性。例如,该转换过程常常导致模态特有信息的丢失,如图像中的视觉细节或音频中的音调差异,从而限制了系统对多模态输入的充分利用。 随后,研究者致力于克服这些局限,提出了更为先进的方法以优化 MRAG 系统。这些进展显著提升了 MRAG 的性能与适应性,并在各类多模态任务中取得了最先进(SOTA)水平的成果。本文将 MRAG 的发展划分为三个阶段,首先介绍的是:


**2.1 MRAG1.0

MRAG 框架的初始阶段,通常被称为“伪 MRAG(pseudo-MRAG)”,它作为对高度成功的 RAG 范式的直接扩展而出现。由于其在设计上与 RAG 的核心原理保持一致,并对多模态数据提供了基本支持,该阶段的框架迅速被研究者采纳。如图 1 所示,MRAG1.0 的架构包含以下三个关键组件: * 文档解析与索引(Document Parsing and Indexing):该模块用于处理 Word、Excel、PDF、HTML 等多种格式的多模态文档。文本内容通过 OCR(光学字符识别)或格式特定的解析方法提取;接着,利用文档版面检测模型将文档划分为结构化元素,如标题、段落、图像、视频、表格和页脚等。对于文本内容,采用分块策略(chunking)以语义一致性为依据划分段落;对于非文本模态(如图像、视频等),使用专用模型生成描述性标题(captions)。最终,这些分块及描述信息通过嵌入模型(embedding model)编码为向量表示,并存储至向量数据库中。嵌入模型的选择对后续检索任务的性能具有决定性影响。 * 检索(Retrieval):该模块将用户查询编码为向量表示,并与索引阶段使用相同的嵌入模型保持一致。随后,系统根据查询向量,在向量数据库中检索出前 𝑘 个最相关的分块与描述,通常使用余弦相似度作为相关性度量。对于冗余或重复信息,系统会进行合并处理,形成一组结构化的外部知识,并在生成阶段整合入提示(prompt),以确保生成结果具备上下文相关性与信息准确性。 * 生成(Generation):在生成阶段,系统将用户查询与检索到的内容合并构建提示,并由大语言模型(LLM)生成回答。该过程结合模型的参数化知识与检索到的外部信息,可有效提升响应的准确性与时效性,尤其适用于专业领域场景。同时,在多轮对话中,系统也会将对话历史整合入提示,确保语境连贯与交互自然。

尽管 MRAG1.0 取得了一定成功,但其也暴露出多个关键性限制,制约了系统的整体性能: * 繁琐的文档解析流程:将多模态数据转换为文本描述显著增加了系统复杂性。这一流程通常依赖多个独立模型来处理不同模态数据,不仅增加了计算开销,也使系统架构更为复杂。此外,转换过程也容易导致信息丢失,例如图像描述往往仅提供粗粒度的语义,难以保留用于检索和生成所需的精细信息。 * 检索瓶颈:尽管文本向量检索技术已相对成熟,MRAG1.0 在召回精度方面仍面临挑战。与传统 RAG 类似,文本的分块策略容易造成关键词的分裂,使部分内容难以被有效检索。同时,将多模态数据转换为文本虽然实现了非文本模态的可检索性,但也引入了新的信息损耗问题。这些因素共同构成了系统检索能力的瓶颈。 * 生成阶段的挑战:与传统 RAG 相比,MRAG1.0 不仅需处理文本分块,还需组织图像描述等多模态信息。如何高效地整合这些异质内容构建提示,既避免冗余又保留关键信息,是一大难点。此外,“垃圾输入,垃圾输出”(GIGO)原则亦表明,LLMs 对输入质量极为敏感。若在解析与检索阶段发生信息丢失,极易导致生成中引入无关内容,从而影响响应的鲁棒性与可信度。

这些局限性构成了 MRAG1.0 的性能上限,凸显出亟需更先进技术方案的必要性。系统对文本表示的依赖,以及在检索与生成阶段固有的挑战,暴露出多模态理解、检索效率与生成鲁棒性方面的关键缺口。下一阶段的 MRAG 需要通过采用更复杂的模型,增强解析过程中的信息保留能力,并进一步提升多模态数据在检索与生成中的融合水平,以突破这些瓶颈。

2.2 MRAG2.0

随着多模态技术的迅速发展,MRAG 正式进入了“真正的多模态”阶段,称为 MRAG2.0。与其前身 MRAG1.0 不同,MRAG2.0 不仅支持用户多模态查询输入,还在知识库中保留原始的多模态数据。借助多模态大语言模型(Multimodal Large Language Models,MLLMs)的强大能力,生成模块如今能够直接处理多模态数据,显著减少了传统数据转换过程中的信息损失。如图 2 所示,MRAG2.0 架构包含以下关键优化点: * MLLMs 描述生成(Captions):MLLMs 在描述生成任务上的表现已有显著提升。MRAG2.0 利用单一或多个统一的 MLLM 模型,从多模态文档中抽取描述内容(captions),替代以往为不同模态分别设计专用模型的做法。这一统一策略简化了文档解析模块,显著降低了系统复杂度。 * 多模态检索(Multimodal Retrieval):MRAG2.0 对检索模块进行了增强,支持保留原始多模态数据并实现跨模态检索功能。该模块允许用户基于文本的查询直接检索关联的多模态数据,实现了基于描述召回与跨模态检索的融合方式。该双重检索机制扩展了下游任务可用的数据源,同时降低了信息损耗,从而提升了检索的准确性与鲁棒性。 * 多模态生成(Multimodal Generation):为充分利用原始多模态数据,MRAG2.0 的生成模块通过集成 MLLMs 进行了优化,能够将用户查询与检索结果整合为一个连贯的提示(prompt)。当检索结果准确且输入为原始多模态数据时,该模块可有效避免模态转换过程中的信息丢失。这一增强显著提升了问答任务的准确性,尤其在处理模态间信息关联紧密的场景中表现更优。

尽管取得了显著进展,MRAG2.0 仍面临一些新兴挑战: 1. 多模态输入的引入可能会降低传统文本查询的描述精度。同时,当前的多模态检索能力仍不如文本检索,可能限制整体检索模块的准确性。 1. 多样化的数据格式给生成模块带来新挑战。如何高效组织这些异构数据,并明确生成所需的输入结构,是未来需要重点关注和深入研究的问题。


2.3 MRAG3.0

如图 3 所示,MRAG3.0 标志着该系统在结构与功能上的重要跃迁,在多个维度实现了能力增强。该新阶段的范式转变体现为以下三大关键创新:

增强的文档解析能力:在解析阶段保留文档页面截图,最大程度减少知识库存储过程中的信息损失。这种新的解析方式弥补了此前解析结果与原始数据之间的信息鸿沟。

真正的端到端多模态能力(True End-to-End Multimodality):相较于早期版本仅在知识库构建与系统输入中体现多模态能力,MRAG3.0 首次引入多模态输出能力,实现了完整的端到端多模态框架。

应用场景拓展(Scenario Expansion):从以理解为核心的传统任务(如基于知识库的视觉问答 VQA)扩展至集“理解 + 生成”于一体的新范式。通过对系统模块的调整与扩展,实现理解与生成模块的融合,极大拓展了系统的适用场景。

在接下来的章节中,本文将详细介绍 MRAG3.0 所支持的多样化应用场景,以及为实现上述高级能力所做的模块改进。

成为VIP会员查看完整内容
27

相关内容

组合图像检索的全面综述
专知会员服务
17+阅读 · 3月2日
多模态检索增强生成的综合综述
专知会员服务
37+阅读 · 2月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
58+阅读 · 1月21日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
29+阅读 · 2024年4月25日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
61+阅读 · 2021年3月25日
综述| 当图神经网络遇上强化学习
图与推荐
33+阅读 · 2022年7月1日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Arxiv
26+阅读 · 2020年2月21日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
组合图像检索的全面综述
专知会员服务
17+阅读 · 3月2日
多模态检索增强生成的综合综述
专知会员服务
37+阅读 · 2月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
58+阅读 · 1月21日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
29+阅读 · 2024年4月25日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
61+阅读 · 2021年3月25日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
33+阅读 · 2022年7月1日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Arxiv
26+阅读 · 2020年2月21日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员