中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

Multimodal Large Language Model (MLLM) 最近已成为新兴的研究热点，它使用强大的大型语言模型 (LLMs) 作为大脑来执行多模态任务。MLLM 的令人惊讶的涌现能力，比如基于图像编写故事和无需 OCR 的数学推理，是传统方法中很少见的，这暗示着通向人工通用智能的潜在途径。在本文中，我们的目标是追踪和总结 MLLM 的最新进展。首先，我们介绍 MLLM 的构造并描述其相关概念。然后，我们讨论关键技术和应用，包括多模态指令微调（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和 LLM 辅助视觉推理（LAVR）。最后，我们讨论现存的挑战并指出有前途的研究方向。鉴于 MLLM 时代刚刚开始，我们将继续更新这篇综述，并希望它能激发更多的研究。一个收集最新论文的相关 GitHub 链接可在 https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models 找到。

https://www.zhuanzhi.ai/paper/c471c806633cc16ba50d1441eac41857

近年来，大型语言模型取得了显著的进步[1-4]。通过扩大数据规模和模型规模，这些大型语言模型展现出了惊人的新能力，典型的包括上下文学习（In-Context Learning, ICL）[5]、指令执行[4, 6]和思维链（Chain of Thought, CoT）[7]。尽管大型语言模型在大多数自然语言处理（NLP）任务上展示出惊人的零样本/少样本推理能力，但由于它们只能理解离散文本，因此在本质上对视觉是“盲目的”。与此同时，大型视觉基础模型在感知方面取得了迅猛的进步[8-10]，而它们与文本的传统结合在更多地关注模态对齐[11]和任务统一[12]，在推理方面的发展较为缓慢。

鉴于这种互补性，单模态的大型语言模型和视觉模型同时朝着彼此靠拢，最终催生出多模态大型语言模型（MLLM）这个新领域。正式地说，它指的是具有接收和处理多模态信息能力的基于大型语言模型的模型。从发展通用人工智能（AGI）的角度来看，MLLM相较于LLM可能是一个进步，原因如下：(1)** MLLM更符合人类感知世界的方式**。我们人类天然地接收多种感官输入，这些输入通常是互补且协同的。因此，多模态信息有望使MLLM更加智能。(2) MLLM提供了更加用户友好的界面。由于支持多模态输入，用户可以以更加灵活的方式与智能助手进行互动和沟通。(3) MLLM是更加全面的任务解决者。虽然LLM通常可以执行NLP任务，但MLLM通常可以支持更广泛的任务。

GPT-4 [2] 通过展示惊人的示例点燃了关于MLLM的研究热潮。然而，GPT-4并没有开放多模态接口，到目前为止也没有关于该模型的信息公之于众。尽管如此，研究界还是做出了很多努力来开发有能力的、开源的MLLM，并展示了一些令人惊讶的实用能力，比如根据图像编写网站代码[13]，理解一个梗图的深层含义[14]，以及无需OCR的数学推理[15]。我们撰写这篇综述，以向研究人员提供MLLM的基本概念、主要方法和当前进展的了解。请注意，我们主要关注视觉和语言模态，但也包括涉及其他模态的工作。具体而言，我们将现有的MLLM分为四种类型，并附上相应的总结，同时开设一个GitHub页面，该页面将实时更新。据我们所知，这是关于MLLM的第一篇综述。

本文将近期代表性的MLLM分为四个主要类型：多模态指令微调（MIT），多模态上下文学习（M-ICL），多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。前三者构成了MLLM的基础，而最后一个是以LLM为核心的多模态系统。请注意，这三种技术相对独立，并且可以组合使用。因此，我们对某一概念的说明可能也涉及其他内容。我们按照这四个主要类别组织本文，并依次介绍它们。我们首先详细介绍M-IT（第3.1节），以揭示在架构和数据两个方面，LLM如何适应多模态。然后，我们介绍M-ICL（第3.2节），这是一种常用于推理阶段以提升少样本性能的有效技术。另一个重要的技术是M-CoT（第3.3节），通常用于复杂的推理任务。之后，我们进一步总结LLM在LAVR（第3.4节）中主要扮演的几个角色，这通常涉及这三种技术。最后，我们以总结和潜在的研究方向结束我们的综述。

2. 方法

2.1. 多模态指令微调

指令是对任务的描述。指令微调是一种技术，涉及在一系列指令格式的数据集[16]上对预训练的大型语言模型进行微调。通过这种方式调整，LLM可以通过遵循新的指令来泛化到未见过的任务，从而提升零样本性能。这个简单而有效的想法引发了后续在NLP领域的成功作品，如ChatGPT [1]、InstructGPT [17]、FLAN [16, 18]和OPT-IML [19]。图1说明了指令微调与相关典型学习范例之间的比较。监督微调方法通常需要大量特定任务的数据来训练特定任务的模型。提示方法减少了对大规模数据的依赖，并可以通过提示工程完成专门的任务。在这种情况下，尽管少样本性能得到改善，但零样本性能仍然相当一般[5]。不同的是，指令调整学习如何泛化到未见过的任务，而不是像两个对应方法那样适应特定任务。此外，指令调整与多任务提示[20]高度相关。

相比之下，传统的多模态模型仍然局限于前两种调整范式，缺乏零样本能力。因此，许多近期的研究[13, 21, 22]已经探讨了如何将LLM中指令微调的成功应用扩展到多模态。为了从单模态扩展到多模态，对数据和模型都需要进行相应的调整。对于数据，研究人员通常通过调整现有的基准数据集[23-28]或通过自我指导[13,21,29]来获取M-IT数据集。对于模型，一种常见的方法是将外部模态的信息注入到LLM中，并将它们视为强大的推理器。相关工作要么直接将外部嵌入与LLM对齐[21, 23-25, 27, 28, 30-32]，要么求助于专家模型将外部模态转换为LLM能够处理的自然语言[33, 34]。以这种方式构建，这些工作通过多模态指令微调将LLM转变为多模态聊天机器人[13, 21, 22, 33, 35]和多模态通用任务解决器[23, 24, 26]。在本节的后续部分，我们首先提供基础知识（第3.1.2节）。在转向M-IT的描述之前，我们还额外介绍了在M-IT之前的常见过程，即对齐预训练（第3.1.3节）。然后，我们按照图2所示的结构安排剩余的内容：我们首先介绍如何收集M-IT数据（第3.1.4节），然后详细讨论MLLM的模型适应，即弥合不同模态之间差距的各种方式（第3.1.5节）。最后，我们介绍评估指令调整后的MLLM的评估方法（第3.1.6节）。

2.2. 多模态上下文中学习

ICL（In-Context Learning，上下文中学习）是LLM的重要能力之一。ICL有两个优点：(1) 与从大量数据中学习隐含模式的传统监督学习范式不同，ICL的关键是通过类比学习[74]。具体来说，在ICL设置中，LLM通过少量示例以及可选的指令学习，并对新问题进行外推，从而以少样本的方式解决复杂和未见过的任务[14, 75, 76]。 (2) ICL通常以无需训练的方式实现[74]，因此可以灵活地在推理阶段集成到不同的框架中。与ICL密切相关的技术是指令微调（见第3.1节），经验证明可以增强ICL能力[16]。在MLLM的背景下，ICL已扩展到更多模态，从而形成多模态ICL（M-ICL）。在（第3.1.2节）中的设置基础上，在推理时，可以通过添加演示集，即一组上下文样本，来实现M-ICL。在这种情况下，模板可以扩展为表3所示。注意，我们列出了两个上下文示例作为说明，但示例的数量和顺序可以灵活调整。实际上，模型通常对示例的排列敏感[74, 77]。在多模态应用方面，M-ICL主要用于两种场景：(1) 解决各种视觉推理任务[14, 27, 63, 78, 79]；(2) 教LLM使用外部工具[75, 76, 80]。前者通常涉及从少量特定任务的示例中学习，并推广到新的但相似的问题。从指令和演示中提供的信息中，LLM了解任务的内容和输出模板，并最终生成预期答案。相比之下，工具使用的示例通常仅为文本，并且更加细致。它们通常包括一系列可以按顺序执行以完成任务的步骤。因此，第二种情况与CoT（见第3.3节）密切相关。

2.3. 多模态思维链条

正如开创性工作[7]所指出的，CoT（Chain of Thought，思维链条）是“一系列中间推理步骤”，已被证明在复杂推理任务中是有效的[7, 87, 88]。CoT的主要思想是提示LLM不仅输出最终答案，而且输出通往答案的推理过程，类似于人类的认知过程。受NLP中的成功启发，已经提出了多项工作[81, 82, 85, 86]，将单模态CoT扩展到多模态CoT（M-CoT）。我们总结这些工作如图3所示。首先，与M-IT的情况类似（见§3.1节），需要填补模态间的差距（§3.3.1节）。然后，我们介绍获取M-CoT能力的不同范例（§3.3.2节）。最后，我们详细描述M-CoT的更具体方面，包括配置（§3.3.3节）和链条的构建（§3.3.4节）。

2.4. LLM辅助的视觉推理

受到工具增强LLM的成功启发[95-98]，一些研究探索了调用外部工具[14, 34, 75, 76]或视觉基础模型[14, 83, 84, 91, 92, 99]来进行视觉推理任务的可能性。这些工作以LLM作为担任不同角色的助手，构建特定任务[84, 90, 93]或通用目的[14, 75, 76, 80, 83]的视觉推理系统。与传统的视觉推理模型[100-102]相比，这些工作表现出几个优点：(1) 强大的泛化能力。这些系统配备了从大规模预训练中学到的丰富的开放世界知识，可以轻松地泛化到未见过的对象或概念，并具有显著的零/少示例性能[75, 76, 90, 91, 93, 94]。(2) 新兴的能力。在LLM的强大推理能力和丰富知识的帮助下，这些系统能够执行复杂任务。例如，给定一张图片，MM-REACT[14]可以解释其背后的意义，比如解释为什么一个梗图是有趣的。(3) 更好的交互性和控制。传统模型通常只允许一套有限的控制机制，并且通常需要昂贵的精心策划的数据集[103,104]。相比之下，基于LLM的系统能够在用户友好的界面（如点击和自然语言查询）中进行精细控制[84]。

接下来的部分按照图4所示进行组织：我们首先介绍在构建LLM辅助视觉推理系统中使用的不同训练范例（§3.4.2节）。随后，我们深入探讨LLM在这些系统中扮演的主要角色（§3.4.3节）。最后，我们以各种类型的性能评估来结束我们的讨论。

3. 挑战和未来方向

MLLM的发展仍处于初级阶段，因此有很多改进的空间，我们在下面进行总结：

• 当前的MLLM在感知能力上仍然受限，导致不完整或错误的视觉信息获取[13, 73]。这可能是由于信息容量和计算负担之间的妥协。更具体地说，Q-Former[64]只使用32个可学习的令牌来表示图像，这可能导致信息丢失。然而，增加令牌大小不可避免地会给LLM带来更大的计算负担，因为其输入长度通常是有限的。一种潜在的方法是引入大型视觉基础模型，如SAM[8]，以更有效地压缩视觉信息[21, 29]。

• MLLM的推理链可能是脆弱的。例如，Fu等人[73]发现，在一个数学计算的案例中，尽管MLLM计算出正确的结果，但由于推理中断，它仍然给出错误的答案。这表明，单模态LLM的推理能力可能不等于接收视觉信息后的LLM的推理能力。改进多模态推理的主题值得研究。

•** MLLM的遵循指示能力需要升级**。在M-IT之后，一些MLLM无法生成预期的答案（“是”或“否”），尽管有明确的指示，“请回答是或否”[73]。这表明，指令微调可能需要涵盖更多任务以提高泛化能力。

• 对象幻觉问题很普遍[13, 44]，这在很大程度上影响了MLLM的可靠性。这可能归因于对齐预训练不足[13]。因此，一种可能的解决方案是在视觉和文本模态之间进行更细粒度的对齐。细粒度是指图像的局部特征，可以通过SAM获得[21,29]，以及相应的局部文本描述。

• 需要参数高效的训练。现有的两种模态桥接方式，即可学习的接口和专家模型，都是减少计算负担的初步探索。更高效的训练方法可能会在有限的计算资源下解锁MLLM的更多潜力。

4. 结论

在本文中，我们对现有的MLLM文献进行了调研，并提供了其主要方向的广泛视角，包括三种常见技术（M-IT, M-ICL, 和 M-CoT）以及构建任务解决系统的通用框架（LAVR）。此外，我们强调了需要填补的当前研究差距，并指出了一些有前景的研究方向。我们希望这篇综述能为读者提供MLLM当前进展的清晰画面，并激发更多的工作。

成为VIP会员查看完整内容