近年来,多模态大语言模型(MLLMs)的出现为文本丰富图像理解(TIU)领域引入了新的维度,这些模型展示了令人印象深刻且鼓舞人心的性能。然而,它们的快速发展和广泛应用使得跟上最新进展变得越来越具有挑战性。为了解决这一问题,我们提出了一项系统且全面的综述,以促进TIU MLLMs的进一步研究。 首先,我们概述了几乎所有TIU MLLMs的时间线、架构和流程。接着,我们回顾了选定模型在主流基准测试中的表现。最后,我们探讨了该领域内有前景的方向、挑战和局限性。

1 引言

文本丰富图像在现实场景中通过高效传递复杂信息和提升可访问性发挥着关键作用(Biten等,2019)。准确解读这些图像对于自动化信息提取、推进AI系统以及优化用户交互至关重要。为了规范这一研究领域,我们将其称为文本丰富图像理解(TIU),它涵盖两个核心能力:感知和理解。感知维度侧重于视觉识别任务,例如文本检测(Liao等,2022)、文本识别(Guan等,2025)、公式识别(Truong等,2024;Guan等,2024a)和文档布局分析(Yupan等,2022)。理解维度则需要对语义进行推理,应用于关键信息提取和基于文档的视觉问答(例如DocVQA(Mathew等,2021b)、ChartQA(Masry等,2022)和TextVQA(Singh等,2019)等任务。

历史上,感知和理解任务通过专用模型或多阶段流程分别处理。最近,视觉-语言模型的进展将这些任务统一在视觉问答(VQA)范式中,推动了端到端通用模型的开发。 图1展示了一个进化时间线,描绘了统一文本丰富图像理解模型的关键里程碑。这一轨迹揭示了两个不同的时代:

  1. 前LLM时期(2019-2022):以LayoutLM(Xu等,2019)和Donut(Kim等,2021)等专用架构为特征,这些模型采用模态特定的预训练目标(如掩码语言建模、掩码图像建模等)并结合OCR衍生的监督(如文本识别、空间顺序恢复等)。尽管在受控环境中有效,这些模型由于需要任务特定的微调和受限的跨模态交互机制,在开放域场景中的适应性有限。

  2. 后LLM时代(2023年至今):以LLM的日益普及为标志。一些研究提出了多模态大语言模型(MLLMs),将LLM与视觉编码器结合,通过统一的注意力机制联合处理视觉标记和语言元素,实现端到端的序列建模。

这一范式演进解决了早期方法的两个关键局限性。首先,新兴的MLLM框架通过同质化标记表示消除了模态特定的归纳偏差,实现了无缝的多任务集成。其次,LLM中编码的语言先验赋予了前所未有的零样本泛化能力,并允许直接应用于多样化任务而无需任务特定的调优。

尽管这些MLLMs展示了令人印象深刻且鼓舞人心的结果,但其快速发展和广泛应用使得跟踪前沿进展变得越来越具有挑战性。因此,迫切需要一项针对文档的系统综述来总结和分析这些方法。然而,现有的文本丰富图像理解综述往往范围狭窄:它们要么分析特定领域的场景(例如表格和图表(Huang等,2024a)、图表(Huang等,2024b;Al-Shetairy等,2024)、表单(Abdallah等,2024)),要么强调统一的深度学习框架(Subramani等;Ding等,2024)。我们的系统综述填补了这一空白,首次从四个维度对几乎所有TIU MLLMs进行了全面分析:模型架构(第2节)训练流程(第3节)数据集和基准测试(第4节)以及挑战与趋势(第5节)。这对推动该领域的发展具有重要的学术和实际意义。

2 模型架构

在多模态大语言模型的设计中,模型架构通常可以划分为三个核心模块:视觉编码器、模态连接器和LLM解码器。下面对每个模块进行详细论述。 2.1 视觉编码器 视觉编码器的主要任务是将输入图像 I 转换为特征表示 V,即 V = F(I)。这一模块在TIU任务中至关重要,其设计方案主要分为以下三类: OCR-free 编码器:直接提取图像的高层语义特征,如CLIP、ConvNeXt、SAM、DINOv2、Swin-T、InternViT等,这类编码器能够捕捉图像中的物体、场景和纹理信息,适合处理图像整体内容。 OCR-based 编码器:借助OCR引擎提取图像中的文本内容与布局信息,主要采用直接输入、交叉注意力等策略。直接输入方式虽然能完整保留文本信息,但在长序列处理上存在效率问题;交叉注意力方式则通过动态选择关键文本信息实现更高效的信息融合。 混合编码器:结合了OCR-free和OCR-based两种策略,如CLIP与LayoutLMv3的结合,既保留视觉语义信息,又兼顾文本与布局特征,适用于文档级任务的多模态理解。 2.2 模态连接器 由于视觉特征 V 与语言特征 T 属于不同模态,模态连接器的设计旨在将视觉特征转换为与语言模型语义空间一致的视觉令牌,从而实现跨模态信息的无缝融合。常用的实现方法包括: 线性映射或多层感知机(MLP):这种方法简单高效,但在扩展性和效率上可能存在局限; 令牌压缩与令牌冗余削减技术:例如利用 Pixel shuffle 方法进行令牌压缩,或采用交叉注意力、H-Reducer 以及基于相似度的注意力池化方法来减少冗余令牌,从而在不损失关键信息的前提下降低计算成本。 2.3 LLM 解码器 模态连接器输出的统一序列化特征与语言嵌入一起送入LLM解码器。常见的LLM包括LLaMA系列、Qwen系列、Vicuna系列以及InternLM系列等。LLM解码器借助强大的语言建模和推理能力,实现跨模态信息的语义融合和最终回答的生成。通过这种端到端的序列建模方法,MLLMs 能够直接应用于诸如文档问答、关键信息提取、图表解析等多种任务。 3 训练流程

MLLM 在训练过程中通常遵循三个主要阶段:模态对齐、指令对齐以及偏好对齐,每个阶段均对模型的最终表现起到关键作用。 3.1 模态对齐 模态对齐阶段的目标在于弥合视觉与文本模态间的差异,使得模型在预训练阶段就能够学到视觉与文本间的对应关系。常见方法包括: 识别、定位与解析任务:利用OCR数据进行预训练,设计全局阅读、局部阅读和文本位置预测等任务,迫使模型学习图像中文本的顺序、位置与结构。部分方法甚至引入图像markdown预测任务,而非简单的文本转录,以更好地保留文档布局信息。 3.2 指令对齐 经过模态对齐后,模型具备了基础的视觉识别和对话能力,但为了实现与人类意图更为一致的智能交互,指令对齐阶段采用了监督微调(SFT)的方法。此阶段的核心在于: 视觉语义锚定:设计出要求答案直接出现在图像中的任务和需要通过外部知识进行复杂推理的问题,从而提升模型的精确性和推理能力; 提示多样化增强:通过对问题进行多种重构,使模型在面对不同提问形式时依然能够准确响应,增强了模型的鲁棒性; 零样本泛化能力提升:利用链式思考(CoT)和检索增强生成(RAG)等策略,让模型在未见任务上也能给出合理的回答。 3.3 偏好对齐 由于在推理过程中模型可能因错误反馈而出现分布偏移,偏好对齐技术旨在通过人类反馈和错误纠正机制优化生成输出。借鉴自然语言处理领域的相关经验,当前多模态领域也开始采用如Dropout Next Token Prediction等策略来确保模型输出更加符合人类期望和实际任务需求。 4 数据集与基准测试

TIU 任务的发展离不开大量专门构建的数据集和标准化的基准测试。这些数据集大致可以分为领域特定数据集和综合场景数据集两类: 领域特定数据集:包括文档类(如 DocVQA、Docmatix)、图表类(ChartQA、PlotQA、FigureQA)、场景文本(TextCaps、TextVQA、ST-VQA)以及表格类数据集(TableQA、WikiTableQuestions)等。这类数据集通常由传统任务数据转换而来,并在预训练阶段用于模态对齐,同时也作为后续指令对齐的标准评测数据。 综合场景数据集:例如 OCRBench、Seed-bench-2-plus 和 MMDocBench 等,专门设计用来评估模型在长文档、多任务、多语言等复杂场景下的综合表现,为后续研究提供了标准化的评价体系。 通过对比各主流模型在这些基准数据集上的表现,可以直观地了解当前 MLLM 的优势与不足,从而推动更高效、更鲁棒的模型设计。 5 挑战与趋势 尽管近年来 MLLM 在TIU任务上取得了显著进展,但依然面临一系列挑战,这也是当前学术界和工业界亟待解决的问题。主要挑战包括: 计算效率与模型压缩:当前大多数 SOTA 模型参数规模在数十亿级别,尽管性能优异,但高昂的计算成本和部署延迟严重制约了其实际应用。近年来,Mini-Monkey 等模型通过在参数量上大幅削减(例如仅使用2B参数达到接近7B模型的效果)展示了轻量化设计的巨大潜力。 视觉特征表示优化:图像令牌数量通常远超文本令牌,直接导致计算复杂度急剧增加。如何在压缩令牌数量的同时保持关键信息不丢失,是未来需要重点研究的方向。近期一些模型(如 mPLUG-DocOwl2)在视觉令牌压缩方面取得了较好效果,为更大输入图像的高效处理提供了新思路。 长文档理解能力:虽然现有 MLLM 在单页文档理解上表现出色,但在多页或长文档的场景下,模型往往难以捕捉长距离依赖和跨页上下文信息,亟需设计新的长文本建模方法或引入专门的长文档基准测试数据集。 多语言文档理解:目前大多数模型主要针对英语和少数高资源语言,对于多语言、低资源语言场景存在明显短板。未来需要构建更全面的多语言数据集,并借助跨语言迁移学习技术提高模型在全球不同文化和语言环境下的适用性。 6 局限性

尽管本文对TIU领域的多模态大语言模型进行了全面综述,但仍存在一些不足之处。首先,由于文献检索和整合时间的限制,部分较新或较边缘的研究成果可能未能覆盖。其次,由于篇幅和格式要求,本文在描述具体算法实现和实验参数配置时采取了简洁表达,读者如需深入细节,建议参阅原论文和相关文献。最后,部分模型的实验结果因采用不同测试集和评测方法,存在一定的可比性问题,这也为未来研究提出了标准化评测的需求。 7 总结与展望

本文系统性地回顾了近年来多模态大语言模型在文本丰富图像理解领域的研究进展,涵盖了模型架构、训练流程、数据集与基准测试、以及面临的主要挑战和发展趋势。可以看出,通过将视觉编码器与预训练语言模型相结合,MLLMs 在打破传统任务壁垒、实现端到端统一建模方面展现了巨大优势,但同时在计算效率、长文档理解、多语言适用性等方面仍有进一步提升空间。未来的研究可以在以下几个方向展开: 继续探索轻量化设计与模型压缩技术,平衡性能与计算资源之间的矛盾; 开发更高效的视觉令牌压缩与跨模态融合方法,优化长文档及复杂场景的建模能力; 构建多语言、多场景下的综合数据集,推动全球化应用场景的覆盖; 借助人机交互和反馈机制,完善偏好对齐技术,使模型输出更贴合实际需求。 总体来看,多模态大语言模型为文本丰富图像理解领域带来了全新的解决思路和应用前景,其不断进化与融合正驱动着人工智能技术向更高水平迈进

成为VIP会员查看完整内容
17

相关内容

大规模语言模型的个性化:综述
专知会员服务
41+阅读 · 2024年11月4日
小型语言模型综述
专知会员服务
48+阅读 · 2024年10月29日
数据与多模态大型语言模型的协同作用综述
专知会员服务
51+阅读 · 2024年7月13日
视觉语言建模导论
专知会员服务
37+阅读 · 2024年5月30日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
50+阅读 · 2024年4月9日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
56+阅读 · 2024年4月4日
《大型语言模型自然语言生成评估》综述
专知会员服务
70+阅读 · 2024年1月20日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
55+阅读 · 2024年1月19日
基于模型的强化学习综述
专知
34+阅读 · 2022年7月13日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
436+阅读 · 2023年3月31日
Arxiv
74+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大规模语言模型的个性化:综述
专知会员服务
41+阅读 · 2024年11月4日
小型语言模型综述
专知会员服务
48+阅读 · 2024年10月29日
数据与多模态大型语言模型的协同作用综述
专知会员服务
51+阅读 · 2024年7月13日
视觉语言建模导论
专知会员服务
37+阅读 · 2024年5月30日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
50+阅读 · 2024年4月9日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
56+阅读 · 2024年4月4日
《大型语言模型自然语言生成评估》综述
专知会员服务
70+阅读 · 2024年1月20日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
55+阅读 · 2024年1月19日
相关资讯
基于模型的强化学习综述
专知
34+阅读 · 2022年7月13日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员