ICLR 2025（投稿） | 多模态大语言模型相关论文整理

引言

随着大语言模型的迅速发展，如何将大语言模型应用在视觉领域也成为了一个热门研究方向。在本文中，我们从MLLM的训练，安全性分析，高效部署等方面，筛选并总结了十篇论文，展示了当下多模态大语言模型研究的具体内容。

LAW OF VISION REPRESENTATION IN MLLMS

本文主要研究了多模态大语言模型中模型性能与跨模态对齐和视觉表示相关性的对应关系。作者提出了“视觉表示定律”来展现这种关联。为了诠释这种相关性，作者提出了AC分数，即Cross-modal alignment(A) 与 Correspondence(C) of the vision representation，并认为模型的最终性能与该AC分数存在一个线性关系。

为了从实验角度证实这种关系的存在，本文首先对A分数与C分数分别进行了计算。对于A分数（跨模态对齐），作者采用CLIP视觉嵌入作为参考，并计算了CLIP嵌入与目标视觉表示嵌入的余弦相似度作为A分数。对于C分数（视觉表示相关性），作者从若干对图像中抽取特征，并通过这些特征来预测关键点，这些预测将被用来计算C分数。最终，AC分数并定义为一个多项式关系：

在后续实验里，作者在4个视觉相关的benchmark上，采用13个视觉表征训练了若干个线性回归模型。这些线性回归模型展示出AC分数与性能高达95.72%的相关程度，验证了其有效性。随后，作者基于AC分数设计了一个训练策略，该策略可以有效的预测模型性能，高效训练出最优模型。实验表明基于AC分数的训练策略是有效的。

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

本文提出了一个新的评测基准，旨在评测多模态大语言模型对于复杂指令的遵循能力。此前的工作包含了许多在开放场景下对模型能力的评测，如LLaVA-Bench与MM-Vet，但这些评测对指令任务的设置往往相对宽松。MIA-Bench希望能够评测模型严格执行复杂指令的能力，包括多层的指令与组合指令，通过建立这一更严格的标准，推动模型在实际应用中的精确性和可靠性的边界，确保输出不仅符合指令的一般意图，也能满足更加精确的复杂需求。

MIA-Bench 包含 400 个图像-提示对，涵盖了多样的图像内容，包括动物、食物、地标等，以覆盖广泛的现实世界场景。同时，在指令层面，作者设计了大量不同复杂度与组合程度的指令，涵盖了五个指令类别，专门用于评测模型的语言灵活性、语法准确性和描述准确性。作者采用了GPT-4o对不同模型生成的回复进行了自动化的评测，并揭示了当前模型在复杂指令遵循方面仍然存在的若干缺陷。

HOW DOES VISION-LANGUAGE ADAPTATION IMPACT THE SAFETY OF VISION LANGUAGE MODELS?

本文研究了大模型的视觉适配对于模型安全性的影响。首先，作者设计了一系列实验来研究视觉适配对大语言模型安全性的影响。作者采用LLaMA-2 Chat 7B与Tulu-2 7B作为语言基座分别进行了视觉指令微调。微调过程中存在三种设定：仅对指令数据进行基于安全性的筛选，进行视觉指令微调与安全性微调，进行视觉指令微调与RLHF，实验结果如下所示：

实验表明，即使在对训练数据进行精心筛选的情况下，大语言模型也会出现安全性的退化。同样的，基于安全性微调的方法，包括SFT与RLHF是有效的，但是仍然无法完全保障模型的安全性能。这些发现证明了大语言模型在视觉适配的过程中存在不可避免的安全性退化。基于这些观察，作者深入的探索了模型安全性的退化原因。此前工作已经发现了语言模型内部存在着安全性相关的层，作者沿用了这些方法，并计算了LLaMA-2-Chat 7B and LLaMA-2-Chat-VL，进行视觉适配之前与适配之后的模型，在相关层中隐藏状态的相似程度。作者发现，LLM和LVLM早期层之间的余弦相似度接近1.0，表明这些层的行为几乎完全相同。然而，这种相似度在更深层中急剧下降到大约0.2，表明出现了显著的分歧。作者观察到从视觉适配的早期到后期，隐藏层状态的相似度出现了逐渐下降。此前的工作将第6层到第14层识别为主要的安全层，本文的分析显示，这些层的余弦相似度降至大约0.5，表明在视觉适配训练期间发生了重大变化，并对模型的安全性造成的潜在的负面影响。基于以上实验结论，作者提出了基于模型参数合并的方法来高效地解决多模态大语言模型的安全性退化问题。通过将安全性微调后的多模态大语言模型与原始的多模态大语言模型的参数进行合并，模型既避免的视觉能力的明显下降，又保持了较高的安全性，有效的解决了模型安全性退化的问题。

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

本文提出了一个新的多模态大语言模型：Mini-Gemini。尽管现有的开源多模态大语言模型在基本视觉对话和推理方面取得了进展，但与GPT-4和Gemini等高级模型相比，仍存在性能差距。为了弥补这样的视觉差距，本文希望从三个方面来挖掘MLLM的潜力，即高分辨率视觉令牌、高质量数据和由多模态模型指导的生成。具体来讲，为了增强MLLM在不同分辨率上的性能，Mini-Gemini引入了双视觉编码器。在低分辨率的场景下，模型采用了传统的处理流程，并使用预训练的CLIP-ViT编码器来编码视觉嵌入。通过这种方式，可以很好地保留不同视觉令牌之间的长距离关系，以便后续在大型语言模型中进行交互。在高分辨率场景下，作者采用基于CNN的编码器来进行自适应且高效的高分辨率图像处理。基于上述的不同分辨率特征，作者提出了块信息挖掘，基于低分辨率视觉令牌检索出最有效的高质量高分辨率视觉令牌，在保证总令牌数不变的情况下，增加输入视觉信息的有效性。同时，由于框架的灵活性，用户可以轻易的进行视觉令牌扩展，通过更多的视觉令牌数获得更好的性能，如下图所示：

在数据侧，Mini-Gemini同时支持视觉-语言生成与语言-视觉生成。首先，与此前工作类似，Mini-Gemini从多个数据源中获得了大量的视觉指令数据，并用于视觉指令微调。除此之外，作者还基于GPT4生成了13K的指令遵循数据，这些数据可以帮助模型在实际场景中生成有意义的prompt，并借助 Stable Diffusion进行图片生成。总的来说，Mini-Gemini进一步挖掘了VLMs的潜力，并同时赋予当前框架图像理解、推理和生成的能力。基于Mini-Gemini框架，作者开发了一系列从2B到34B的密集型和MoE大型语言模型。这些模型在若干个零样本基准测试中取得了领先性能，甚至超过了部分闭源模型。

SLIMLLAVA: AUTOMATIC PRUNING FOR LARGE VISION-LANGUAGE MODELS

本文主要研究了多模态大语言模型的高效部署问题。尽管MLLM在复杂视觉推理任务中取得了令人满意的表现，但在部署时仍面临高资源消耗的问题。本篇文章提出了一种大型视觉-语言模型的自动剪枝方法，用于高效的视觉推理。与传统方法不同，SLIMLLAVA仅使用少量样本搜索所需的剪枝策略，通过最大化模型在未知数据上的泛化能力，从而获得大型视觉-语言模型的最优精度-效率权衡。

具体而言，由于可用于剪枝的样本有限，对搜索到的剪枝策略的真实网络目标进行评估非常具有挑战性。因此，作者通过结构风险最小化（SRM）原则来最大化剪枝策略的泛化能力，该原则可以通过经验风险和未见数据分布界定。作者经过一系列推导证明，低权重范数表明模型输出与输入的相关性弱，因此对不同数据分布有高泛化能力。尽管对在有限样本上进行准确度-效率的权衡是困难的，依然鼓励剩余的模型部分具有较低的权重范数。这样，最终的剪枝策略能够保证模型适应没有见过的下游任务分布。由于在视觉适配训练中，MLLM通常采用Projector层对视觉特征映射到LLM的输入空间，因此，其在融合视觉和语言模态方面扮演着至关重要的角色。因此，作者将Projector层的权重视作剪枝策略的搜索空间，该部分权重的优化就被等价于搜索空间的进化。此后，作者提出了一系列方法，基于欧氏距离对搜索空间进行优化，并得到了最终的最优剪枝策略。基于以上剪枝策略，作者在LLaVA上进行了广泛的测试，并证明了其在若干个下游任务上的有效性。

本文聚焦于通过视觉理解能力的提升来增强多模态大语言模型。作者提出了一种多模态语言模型Arcana，并开发了两项关键技术以提升模型性能。首先，作者引入了多模态LoRA（MM-LoRA），旨在增强解码器在视觉-语言理解中的作用。与传统的语言模型解码器不同，MM-LoRA包含两个并行的LoRA—一个用于视觉，一个用于语言，并且分别都具备自己独特的参数。这种解耦的参数设计使得每种模态都能进行更专业的学习，并更好地整合多模态信息。其次，作者引入了梯形的查询适配器（QLadder），用于改善视觉编码器。QLadder采用了一个可学习的“梯形”结构，对来自于预训练好的视觉编码器（如CLIP）的中间表示进行深度聚合，使得模型能够学习到新的，高度信息密集的视觉特殊特征，同时保留了视觉编码器原有的强大能力。这些技术很好的增强了Arcana在多模态场景下的视觉感知能力，提高了在不同下游任务的性能。

LONG CONTEXT TRANSFER FROM LANGUAGE TO VISION

本文主要聚焦于长视频理解任务，这些任务提供了宝贵的时序信息，但现有的多模态大语言模型在理解长视频时依然存在不同。此前的主要方法是，通过使用视觉重采样器，减少视觉令牌的数量来解决这一问题。本文从一个新的视角，即语言模型的角度来探讨这一问题。作者发现，仅仅通过简单地扩展语言骨干的上下文长度，多模态大语言模型能够在没有任何视频数据训练的情况下理解数量更多的视觉令牌，作者将这一现象称作上下文转移。为了进一步的衡量多模态模型在视觉模态中对长上下文的泛化能力，作者开发了V-NIAH（Visual Needle-In-A-Haystack），一个受语言模型中NIAH基准而启发的长视频理解基准。本文提出了长视频助手（LongVA）可以处理2000帧，或超过200K的视觉令牌，而不需要额外的复杂设计。通过这种简易的上下文拓展方法，LongVA在Video-MME和MLVU基准上实现了7B模型中的最先进性能。

ZIPVL: EFFICIENT LARGE VISION-LANGUAGE MODELS WITH DYNAMIC TOKEN SPARSIFICATION AND KV CACHE COMPRESSION

本文主要研究了大型视觉语言模型（LVLMs）的效率问题。LVLM的效率受到预填充阶段注意力机制的计算瓶颈以及解码阶段获取键值（KV）缓存的内存瓶颈的限制，特别是在涉及高分辨率图像或视频的场景中。视觉内容通常显示出大量的冗余，导致LVLMs中的注意力图显著稀疏。在以往的工作中，这种稀疏性可以通过加速注意力计算或压缩KV缓存的各种方法来解决。然而，大多数研究只关注解决其中一个瓶颈，并且不能支持针对不同层以及不同任务稀疏性的动态调整。本文提出了一个为LVLMs设计的高效推理框架ZipVL，通过动态调整重要令牌比例来解决计算和内存瓶颈。此处的令牌比例是基于不同层的特定注意力分布自适应确定的，而不是固定的超参数，从而为较简单的任务提高效率，同时为更具挑战性的任务保持高性能。随后，这些归一化注意力得分被用于选择重要令牌，并仅对这些重要令牌执行注意力计算以加速预填充阶段。为了缓解解码阶段的内存瓶颈，作者对KV缓存采用混合精度量化，对重要令牌的缓存使用高位量化，而对不那么重要的令牌的缓存应用低位量化。实验表明，ZipVL可以将预填充阶段加速2.6倍，并将GPU内存使用量减少50.0%，在Video-MME基准上仅使LongVA-7B模型的准确度降低了0.2%，有效提高了LVLMs的生成效率。

本文主要研究了多模态大语言模型（MLLMs）在多模态数学推理上的应用。大型语言模型在数学推理方面展示了显著的能力，特别是在处理基于文本的数学问题时。然而，当前的MLLMs，特别是那些专注于数学推理的模型，主要集中在解决几何问题上，却忽视了数学其他领域可用的多样性视觉信息。此外，这些专门的数学MLLMs所依赖的几何信息通常来源于几个公共数据集，这些数据集在多样性和复杂性上通常是有限的。为了解决这些限制，作者构建了一个名为MathVL的微调数据集，并通过在MathVL上进行有监督的微调（SFT），开发了一系列专门的，使用不同参数规模的数学推理MLLMs，称为MathGLM-Vision。为了全面评估MathGLM-Vision的有效性，作者在几个公共基准测试和精心设计的包含2000个问题的MathVL-test基准测试上进行实验。实验结果表明，与一些现有模型（包括骨干模型和开源数学推理MLLMs）相比，MathGLM-Vision取得了显著的改进。这些发现表明，多样化数据集在提升MLLMs的数学推理能力方面具有显著的重要性。

SELF-INTROSPECTIVE DECODING: ALLEVIATING HALLUCINATIONS FOR LARGE VISION-LANGUAGE MODELS

本文主要研究了大型视觉语言模型（LVLMs）中的幻觉问题。为了缓解这一问题，此前的一些工作通过人为干扰原始视觉或指令输入来诱发幻觉，然后通过对比原始和干扰后的LVLMs输出来生成正负样本对，通过一些对齐训练的方法来减轻幻觉。然而，这种基于全面输入干扰的方式有时会引入潜在的噪声，并且还会使推理成本翻倍。为了解决这些问题，作者提出了一种简单而有效的方法，名为自反省解码（Self-Introspective Decoding，SID）。作者通过一系列经验性实验证明，预训练的LVLMs能够自反省地评估视觉令牌的重要性，这种评估是基于先前的视觉和文本令牌来进行的。基于这一发现，作者开发了一种基于文本和上下文感知的令牌选择策略（Context and Text-aware Token Selection，CT2S），该策略仅保留早期解码层后最不重要的视觉令牌，从而在自回归解码过程中适应性地放大视觉与文本关联的幻觉。这种策略确保模型在早期解码层接受的多模态知识能够诱导幻觉的产生，这种幻觉无目的的，并显著减少计算负担。随后，通过在原始令牌中削减这类幻觉相关的令牌，可以有效地缓解幻觉问题，同时不影响LVLMs的一般能力。广泛的实验表明，基于SID方法推理，模型生成的文本幻觉较少，质量更高，且不产生明显的额外计算成本。

成为VIP会员查看完整内容