导读 本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面:

  1. 基于语义抽取的多模态 RAG
  2. 基于 VLM 的多模态 RAG
  3. 如何 Scale 基于 VLM 的多模态 RAG
  4. 技术路线的选择
  5. 问答环节 分享嘉宾|金海 Infiniflow 联合创始人 编辑整理|王红雨 内容校对|李瑶 出品社区|DataFun

01

基于语义抽取的多模态 RAG多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无缝融合文本、图像和其它多媒体元素,为用户提供更丰富的信息交互体验。 实现多模态 RAG 系统的三种主要技术路径如下:

  • 传统对象识别与解析(雕花路线) 传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。
  • 采用 Transformer 架构 近年来,深度学习模型,特别是 Transformer 架构,在自然语言处理领域取得了巨大成功。在多模态 RAG 上,这种方法涉及使用编码器(Encoder)对整个文档进行编码,再由解码器(Decoder)将编码后的信息转化为可读文本。这种方法与第一种类似,只是模型不同,第一种用的是 CNN,这种是 Transformer。此法的优势在于可以更好地捕捉上下文依赖关系,提高信息的连贯性和一致性。
  • 采用视觉语言模型 第三种方式是直接利用视觉语言模型(Visual Language Model, VLM)处理多模态数据。此类模型可以直接接收文档、图片或视频等形式的原始输入,将其转化为向量(Patch Embedding)。这些向量可用于构建更加精细的文档嵌入,有助于增强 RAG 系统的检索和生成能力。尤其值得一提的是,由于单一向量难以充分反映复杂文档的所有方面,使用多向量(或称为张量)成为了优选方案,以减少信息丢失,更全面地代表文档含义。

下面来具体看一下路线一,我们称其为“雕花”式路线。从上图中可以看到,文档通常富含图形和表格,如折线图、饼状图和柱状图,甚至存在表格跨页、合并单元格等复杂情况,处理难度较高。 该路线的核心步骤如上图所示。首先进行文档结构识别,区分各个组成部分,明确哪些是段落、哪些是表格、哪些是图表等。针对每一类识别出的对象进一步解析,对于文本部分,采用 OCR 技术转录文字;对于图表,则需专门的模型进行识别和解析,理解其内容与意义。“雕花”路线的特点在于其深度和广度,几乎覆盖了文档内的每一个细节。耗时费力,但对于确保信息的全面性和精准性具有不可替代的作用。但其处理效率相对较低,自动化程度受限,尤其面对大规模数据集时,挑战更为显著。 路线一的 RAG 架构是最基础的 RAG:文档被细分成 chunks,每一块包含可独立处理的内容片段,通过 Embedding 模型将每块转换成向量,以便在向量数据库中进行相似性检索,检索结果作为提示词提供给大模型。实际应用场景下会更为复杂,需要进入更深层次的 RAG 架构。文档布局模型识别出不同布局后,分离不同类型的 chunks。之后进行检索,会用到全文索引、向量索引、稀疏向量索引以及图索引等。检索召回后,利用 Tensor Reranker 进行重排序,提升检索效果。最后交由大模型生成回答。在此过程中,面对复杂文档,如果没有“雕花”的过程,那么一定会存在信息混乱,导致“Garbage in, garbage out”。 我们根据第一种路线,设计了 RAGFlow 的功能模块,并通过 Infinity 数据库提供向量处理。在“雕花”过程中,表格识别是一大难点。 表格通常布局复杂,需要判定单元格边界、识别表头和合并的单元格,还要判断跨页结构,对色彩标记、图表嵌入等进行识别,处理难度很大。我们实现了利用 Transformer 架构对表格内容进行解析。 采用 VAE(Variational Auto Encoder)提取图片特征,经过 Encoder 生成 Code Book,再经过 Decoder 得到最终结果。如果结果一致,则证明 Code Book 可以准确表达表格结构和内容。再来训练 Encoder 和 Decoder,最后生成 HTML 表格。生成的表格与原表格经过严格对比,确认无误后,我们就认为 Transformer 模型是准确有效的。 此流程不仅适用于表格识别,亦可用于流程图、饼状图、柱状图等其它图表类型的解析。02****

基于 VLM 的多模态 RAG接下来介绍另一种路线——基于视觉语言模型的多模态 RAG。 VLM 能够同时处理图像与文本信息,对复合媒介资料提供全面解析。如上图中所示,模型不仅能够识别出图像中猫的位置,精确定位猫的轮廓,还可以回答关于图像内容的提问,体现出其强大的多模态认知能力。下面来看一下 VLM 的进展。 2024 年见证了多模态语言模型的迅猛崛起,以 GPT-4o 为代表的各种开源、闭源模型百花齐放,标志着多模态领域的重大进步。今年是多模态模型的爆发之年,那么明年是否会是多模态 RAG 的爆发之年呢?下面来看一些相关的例子。 使用 PaliGemma 模型针对 PDF 文档进行问答,例如提问 2018 年中国 IDC 市场规模有多大,模型直接给出了柱状图中的具体数字,非常准确。 又如,对 Qwen2 模型提问一张图表中的内容,模型也给出了准确而详细的解析。 上图中展示的是一篇利用 VLM 实现多模态搜索的论文,其中用到了 ColPali 方法,即基于上下文的延迟交互。其核心理念是将多模态文档转换为多维向量,再运用相似度匹配,交予大型模型生成答案,这一流程与现代 RAG 类似。其最为重要的一点是多模态信息如何表达。传统搜索引擎使用全文索引,提取关键词进行检索,然后用倒排索引的方式进行打分。而在 AI 时代,文本采用向量的方式进行表达,可显著提升信息处理效能。 ColPali 系统的评估标准为 nDCG(归一化折减累积增益),显示出相比于以往方法,其准确度有了质的飞跃,达到了 80% 以上的水平,较之前低于 60% 的结果有着显著改进。实验表明,在特定数据集(如 MLDR)上的表现亦十分出色,实现了接近 70% 的准确度,充分证明了技术的有效性。 前面提到,ColPali 用到了基于上下文的延迟交互,也就是上图中最右边的一种模型。图中第一种,Dual Encoder,是现在常用的利用向量数据库做相似度匹配的方式。文档经模型转换为一系列向量,之后聚合简化为单个向量,用于快速查询和匹配。这种方式的优势是速度快,效率高。局限性在于信息大量丢失,难以精确定位文档与查询间的关联。于是,引入了 Reranker,即图中第二种方式,Cross Encoder。通过初筛获取候选 chunks 后,采用该方式重新排序,模型根据相关性排序,再作为提示词。这种方式的问题是需借助 GPU 运行,且文档数量受限。因此出现了延迟交互模型。首先将文档生成为多向量(或称为张量)存储。用户查询时,同样转化为张量形式,计算内积 MaxSim 得分,而非依赖模型计算。这样可以显著减少计算量,待选文档数量就可以增大,最后召回率就可以得到提升。 ColPali 就是采用了这种方式。将 PDF 文档切为 1024 个 patches,每个 patch 使用 128 维向量表示,这样一个 PDF 文档就转成了包含 1024 个向量的张量。 一个 PDF 切分为多页,每页采用一个 Tensor 来表示。 计算 MaxSim 得分。 上图中列出了一些相关模型的效果。它们都是名字中包含了“Col”的版本,相较于之前传统版本都有着显著提升。03****

如何 Scale 基于 VLM 的多模态 RAG接下来探讨如何应用基于 VLM 的多模态 RAG。 第一个挑战是数据规模变大,Tensor 复杂度增加。例如前面提到的,用 1024 个向量来表示一个文档,无论存储复杂度还是计算复杂度都大幅上升。 那么在张量之上是否还有必要建索引呢?索引对降低计算规模的作用是有限的。因此我们采取了对张量进行二值化处理等方式来减小数据规模。我们也发现,用张量做重排序,和直接用张量作为第一次搜索排序,其准确度是相近的。 因此,利用 Infinity 数据库,第一轮搜索采用全文搜索、稠密向量搜索和稀疏向量搜索,搜索得到的结果再经过 Tensor Reranker 重排序。 Infinity 数据库针对结构化数据、稠密向量、稀疏向量、张量、全文搜索都有对应的索引,还可以进行融合搜索。 从上图展示的测试结果中可以看到,蓝色部分是没有采用张量方式的搜索,BM25 是全文搜索,效果较好,而现在常用的稠密向量搜索效果最差。我们还对搜索方式两两进行排列组合,结果发现,组合和类型越多,搜索准确度越高。黄色是加上了张量重排序的搜索,可以看到准确度得到了显著提升。 延迟交互将是 RAG 的未来发展趋势。JaColBERT 和 Jina-ColBERT v2 都展现出了积极的进展。04****

如何选择技术路线

上图所示的工作中认为视觉语言模型的路线更具优势。但我们认为雕花路线和视觉语言模型各有所长,对于抽象图像较多的文档更适合采用 VLM 的方式,相反则更适合传统手段。两种路线将长期并存:

  • 基于 Transformer 的新一代 OCR,针对多模态文档的提取精度更加准确。
  • OCR 和 VLM 可以长期共存。
  • 支持 Tensor 的延迟交互将是未来多模态 RAG 的标配选择。

最后,欢迎大家关注 RAGFlow。05****

问答环节******Q1****:如何应对多模态可能比自然语言拥有更大状态空间的挑战?是否有尝试标准化处理?****A1:将图表映射为 Excel 是一种理想化的处理方式,但难度非常大,首先已有的大量文档无法都转为 Excel,另外 Excel 的美观性和展示效果还是有欠缺的。Q2:为何选择张量而非向量计算?******A2:向量维度固定,而张量尺寸灵活,适应变长数据。向量数据库无法直接处理变长数据,故转向张量计算。以上就是本次分享的内容,谢谢大家。

分享嘉宾

INTRODUCTION

金海

Infiniflow

联合创始人

数据库系统和人工智能系统专家,InfiniFlow 联合创始人,负责公司研发工作。在创立 Infiniflow 之前,曾任 Zilliz 研发负责人,带领团队创立 Milvus 向量数据库;矩阵起源研发 VP,负责 MatrixOne 数据库内核的设计和研发工作。

成为VIP会员查看完整内容
21

相关内容

华为诺亚解析:推荐系统的技术演进及大模型应用实践
专知会员服务
20+阅读 · 2024年12月13日
腾讯语音合成技术:模型优化与推理加速实践
专知会员服务
25+阅读 · 2024年11月8日
小红书搜索:生成式检索的探索与实践
专知会员服务
30+阅读 · 2024年10月5日
大模型数据建设探索与实践
专知会员服务
14+阅读 · 2024年9月8日
领域大模型的挑战与机遇:从构建到应用
专知会员服务
63+阅读 · 2024年6月16日
张钹院士:从人工智能三要素走向四要素之路
专知会员服务
34+阅读 · 2024年6月8日
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
22+阅读 · 2024年5月25日
专利大模型的实践与知识问答探索
专知会员服务
13+阅读 · 2024年4月29日
AIGC时代的多模态知识工程思考与展望
专知会员服务
132+阅读 · 2023年4月10日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
10+阅读 · 2020年9月9日
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
深度学习中最常见GAN模型应用与解读
计算机视觉life
22+阅读 · 2019年10月23日
用Attention玩转CV,一文总览自注意力语义分割进展
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
Google Brain ICLR Talk:元学习的前沿与挑战
专知
27+阅读 · 2019年5月9日
综述:DenseNet—Dense卷积网络(图像分类)
专知
85+阅读 · 2018年11月26日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
416+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
华为诺亚解析:推荐系统的技术演进及大模型应用实践
专知会员服务
20+阅读 · 2024年12月13日
腾讯语音合成技术:模型优化与推理加速实践
专知会员服务
25+阅读 · 2024年11月8日
小红书搜索:生成式检索的探索与实践
专知会员服务
30+阅读 · 2024年10月5日
大模型数据建设探索与实践
专知会员服务
14+阅读 · 2024年9月8日
领域大模型的挑战与机遇:从构建到应用
专知会员服务
63+阅读 · 2024年6月16日
张钹院士:从人工智能三要素走向四要素之路
专知会员服务
34+阅读 · 2024年6月8日
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
22+阅读 · 2024年5月25日
专利大模型的实践与知识问答探索
专知会员服务
13+阅读 · 2024年4月29日
AIGC时代的多模态知识工程思考与展望
专知会员服务
132+阅读 · 2023年4月10日
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
10+阅读 · 2020年9月9日
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
深度学习中最常见GAN模型应用与解读
计算机视觉life
22+阅读 · 2019年10月23日
用Attention玩转CV,一文总览自注意力语义分割进展
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
Google Brain ICLR Talk:元学习的前沿与挑战
专知
27+阅读 · 2019年5月9日
综述:DenseNet—Dense卷积网络(图像分类)
专知
85+阅读 · 2018年11月26日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员