多模态大语言模型研究进展！

1 介绍多模态大型语言模型（MM-LLMs）在过去一年取得了显著进步，通过优化模态对齐和与人类意图对齐，增强了现成的单模态基础模型（LLMs）以支持各种MM任务。本文对MM-LLMs进行了全面综述，包括模型架构和训练流程的概述，以及122个最新进展的MM-LLM分类系统。本文还介绍了输出投影器在机器翻译中的作用，并讨论了模式生成器、训练管道、SOTAMM-LLM以及未来发展方向。MM-LLMs具有较高的性能，未来发展方向包括扩展模型模式、多样化LLM、提高MM生成能力和开发更具挑战性的基准。文章全面探讨了现代机器学习模型MM-LLMs的最新进展，关注了MM-LLMs在微调和幻觉缓解等方面的挑战，并提出了一些建议。MM-LLMs的时间表如图1所示。

图1 MM-LLMs的时间轴2 模型体系结构本节概述了构成通用模型架构的五个组件，如图2所示，包括模式编码器、LLM主干、模式生成器和输入输出投影器。MM-LLM仅包括前三个组件，在训练过程中，模式编码器、LLM主干和模式生成器通常保持冻结状态，主要优化重点在于输入和输出投影器。MM-LLM中可训练参数的比例与总参数数量相比明显较小，通常约为2%。总体参数数量取决于MM-LLM中使用的核心LLM的规模。因此，MM-LLM可以高效地训练以支持各种MM任务。图2 MM-LLMs的一般模型架构以及每个组件的实现选择。2.1 模态编码器模态编码器（ME）将来自不同模态的输入IX编码为相应的特征FX。针对不同的模态，存在多种预训练的编码器选项MEX，其中X可以是图像、视频、音频、3D等。对于图像，有多种可选的编码器，如NFNet-F6、ViT、CLIP ViT、Eva-CLIP ViT、BEiT-3、OpenCLIP、Grounding-DINOT、Swin-T、DINOv2、SAM-HQ、MAE、RAM++、Swin-B、InternViT和VCoder。对于视频，可以将其均匀采样为5帧，并对其进行与图像相同的预处理。音频模态通常使用CFormer、HuBERT、BEATs、Whisper和CLAP进行编码。三维点云模态通常使用ULIP-2和PointBERT作为后端进行编码。此外，为了处理众多异构模态编码器，一些MM-LLMs，特别是任意到任意类型的编码器使用ImageBind，这是一种涵盖图像/视频、文本、音频、热图、惯性测量单元和深度等六种模态的统一编码器。2.2 输入投影器输入投影器ΘX→T将其他模态FX的编码特征与文本特征空间T对齐，生成提示PX，与文本特征FT一同输入LLM主干。目标是最小化X-条件下的文本生成损失Ltxt-gen。其中PX=ΘX→T（FX）。输入投影器可通过线性投影器或MLP实现，也可使用更复杂的实现如交叉注意(Perceiver Resampler)。Q-Former从FX中提取特征作为提示PX，P-Former生成“参考提示”进行对齐约束，MQ-Former进行多尺度信号对齐。但这些方法都需要额外的PT过程初始化。2.3 LLM主干MM-LLM以LLM为核心代理，继承了零样本泛化、少数样本ICL、思维链和指令遵循等显著属性。LLM主干处理各种模态的表示，参与语义理解、推理和输入的决策。它产生直接的文本输出t和其他模态的信号标记SX。这些信号标记作为指令来指导生成器是否要生成MM内容，如果肯定，则指定要生成的内容。其他模态的表示PX可以视为对LLM的软提示微调。一些工作引入了参数高效的微调（PEFT）方法，如前缀微调、LoRA和层规范微调。MM-LLM中常用的LLM包括Flan-T5、ChatGLM、UL2、Persimmon、Qwen、Chinchilla、OPT、PaLM、LLAMA、LLAMA-2和Vicuna。2.4 输出投影仪输出投影器ΘT→X将LLM主干中的信号令牌SX映射到可被模式生成器MGX理解的特性HX中。对于X文本数据集{IX，t}，LLM生成SX后映射为HX。目标是最小化HX与MGX文本表示间的距离，以促进二者之间的对齐。优化仅依赖字幕文本，不利用其他资源。HX由ΘT→X(SX)得到，τX是MGX的文本编码器。输出投影器通过可学习的解码器或MLP实现。2.5 模式生成器模式生成器MGX生成多种模式的输出。当前作品多采用隐扩散模型（LDMs），如图像合成使用稳定扩散，视频合成使用零目镜，音频合成使用AudioLDM-2。输出投影器将特征HX作为条件输入，用于MM内容生成过程中的噪声消除。训练时，先将真实内容转为潜在特征z0，再添加噪声得到zt。使用预训练的Unet计算条件LDM损失LX-gen。

优化参数ΘX→T和ΘT→X以最小化LX-gen。

3 训练管道MM-LLMs训练流程可以被划分为两个主要阶段：MM PT和MM IT。3.1 MM PT在PT阶段，XText数据集被广泛用于训练模型。训练过程中，输入和输出投影器得到优化，确保准确对齐各种模式。MM理解模型主要优化公式(2)，而MM生成模型则涉及公式(2)、(4)和(5)。XText数据集包含图像文本、视频文本和音频文本等多种文本数据，其中图像文本又分为图像文本对和交错的图像文本语料库。详情请参见附录G表3。3.2 MM ITMM IT是一种方法，通过使用指令格式化的数据微调预训练的MM-LLMs，提高零击性能。MM IT包括监督微调（SFT）和人类反馈驱动的强化学习（RLHF），旨在增强MM-LLMs的交互能力。SFT将PT阶段数据的一部分转换为指令感知格式，使用相同的优化目标微调预训练的MM-LLMs。SFT数据集可以是单回合QA或多回合对话的结构。在SFT之后，RLHF涉及进一步的微调模型，依赖于有关MM-LLMs响应的反馈（例如自然语言反馈（NLF）手动或自动标记）。此过程使用强化学习算法来有效地集成不可微分的NLF。模型根据NLF进行训练以生成相应的响应。4 SOTA MM-LLM图3展示了我们对122篇SOTA MM-LLM的功能和设计分类。设计方面分为“工具使用”和“端到端”两种方式。我们对这些模型中的43个架构和训练数据集规模进行了比较，如表1所示。开发趋势包括从MM理解到任意模式转换，改进训练管道以更好地与人类意图对齐，接受多样化扩展模式，纳入更高质量的训练数据集，并采用更有效的模型架构。MM-LLM现有趋势：

从MM理解到任意模式转换。 * 训练管道不断改进，与人类意图对齐，增强会话交互能力。 * 接受多样化扩展模式。 * 纳入更高质量的训练数据集。 * 采用更有效的模型架构。

图3 MM-LLM的分类。I：图像，V：视频，A/S：音频/语音，T：文本。ID：文档理解，IB：输出框边界，IM：输出分割掩模，IR：输出检索图像。表1 43个主流MM-LLM的总结。I→O：输入到输出模态，I：图像，V：视频，A：音频，3D：点云，T：文本。在 Modality Encoder 中，“-L”表示 Large，“-G”表示 Giant，“/14”表示 patch 大小为 14，“@224”表示图像分辨率为 224 × 224。#.PT 和 #.IT 分别表示 MM PT 和 MM IT 期间数据集的规模。† 包括不可公开访问的内部数据。

5 基准和性能为了比较不同视觉语言基准上的主要MMLLMs，我们整理了一个表格，其中包含来自各种论文的信息，如表2。为了解决高分辨率导致更长的令牌序列和额外训练成本的问题，一些论文提出了解决方案。其中，Monkey提出了一种解决方案，仅使用低分辨率视觉编码器提高输入图像的分辨率。此外，高质量的SFT数据可以显著提高特定任务的性能。VILA揭示了几项关键发现，包括在LLM后端上执行PEFT促进深度嵌入对齐的重要性，交错的图像-文本数据是有益的，而单独的图像文本对是不够理想的。在SFT期间重新混合仅包含文本指令数据与图像文本数据不仅可以解决纯文本任务性能下降的问题，还可以提高VL任务的准确性。表2 主流MM-LLMs在18个VL基准上的比较。红色表示最高结果，蓝色表示第二高结果。‡表示ShareGPT4V（Chen等人，2023f）重新实现的测试结果，这些结果在基准或原始论文中缺失。*表示在训练过程中观察到训练图像。 6 未来方向本节研讨了MM-LLMs在以下多个领域中所展现出的充满潜力的未来发展趋势：**更强大的模型。**增强MM-LLMs的四个关键领域：（1）扩展模式：将MM-LLMs扩展到其他模式，如网页、热图和图表，以增加模型的通用性和普遍适用性；（2）多样化的LLM：整合各种类型和大小的LLM，提供根据具体要求选择最合适LLM的灵活性；（3）提高MM IT数据集质量：改进和扩展MM IT数据集，提高MM-LLMs在理解和执行用户命令方面的有效性；（4）加强MM生成能力：探索整合基于检索的方法，增强模型的整体性能。**更具挑战性的基准。**现有的基准可能不足以全面评估MM-LLMs的能力，因为它们可能已在训练过程中熟悉这些任务。当前基准主要集中于VL子领域，因此为MM-LLMs开发一个更具挑战性的、包含多种模式和统一评估标准的更大规模基准至关重要。例如，GOAT-Bench和MathVista分别用于评估MM-LLMs在识别社会虐待微妙方面和视觉上下文中的数学推理能力。MMU和CMMMU是为专家AI设计的英语和中文多学科MM理解与推理基准。BenchLMM评估MM-LLMs的跨风格视觉能力，而Liu等人则深入研究了MM-LLMs的光学字符识别能力。**移动/轻量级部署。**为了在资源受限平台上部署MM-LLM并实现最佳性能，需要采用轻量级实现。近年来，已经进行了许多类似的研究，通过比较性能或最小损失实现了有效的计算和推理。然而，这一领域仍需要进一步探索以取得进一步的进展。MobileVLM是一种显著的方法，通过降低LLaMA的规模和引入轻量级的下采样投影器，实现了无缝的现成部署。**实体智能。**实体智能是一种旨在通过理解环境、识别对象、评估空间关系和制定任务计划来复制人类对周围环境感知和交互的人工智能技术。PaLM-E和EmbodiedGPT是该领域的典型工作，前者通过训练MM-LLM引入多身体代理，处理通用VL任务，后者提出经济高效的CoT方法，增强实体代理与现实世界的互动能力。尽管基于MM-LLM的实体智能在机器人集成方面取得进展，但需要进一步探索来增强机器人的自主性。**持续学习。**MMLLMs由于训练成本高，不适合频繁重新训练，但为了更新技能和跟上人类知识，更新是必要的。因此，持续学习（CL）是必要的，分为持续的PT和持续的IT。最近提出了连续MMIT基准，用于在原始MMIT阶段学习任务的同时，为MM-LLMs连续微调提供新MM任务的能力，同时保持对已学习任务的优异性能。这引入了两个主要挑战：灾难性遗忘，即模型在学习新任务时忘记以前的知识，以及负向正向转移，表明在尝试新任务时性能下降。**减轻幻觉。**幻觉是指在没有视觉线索的情况下生成文本描述的生成对象，可能出现在多种类别中，如描述中的误判和不准确。幻觉的根源包括训练数据中的偏见和注释错误，以及段落分隔符相关的语义漂移偏见。当前缓解幻觉的方法是利用自我反馈作为视觉线索，但挑战仍然存在，需要区分准确和幻觉输出，并在训练方法上取得进展以提高输出可靠性。MM-LLMs的最新进展链接：https://mm-llms.github.io