本论文研究了多模态基础模型在开发和训练中的关键挑战,重点关注当前监督微调(SFT)方法的局限性,并探索强化学习(RL)在实现鲁棒泛化方面的潜力。研究工作分为两个主要部分:第一部分:理解监督微调下多模态基础模型的局限性尽管多模态大语言模型(MLLMs)在基准任务上表现出色,但在需要更深层次理解或适应新情境的看似简单任务中,它们常常表现出令人惊讶的弱点。本论文首先研究了 MLLMs 中的灾难性遗忘现象,即在新任务上进行微调可能导致模型在先前学习任务上的性能显著下降。我们引入了多模态评估框架(EMT),这是一种新颖的评估方法,旨在系统性地评估这种遗忘现象。研究结果表明,即使是利用强大预训练视觉编码器的 MLLMs,在经过 SFT 后,在基本图像分类任务上的性能也会显著下降。此外,我们深入探讨了 MLLMs 在视觉方面的具体缺陷。我们提出了多模态视觉模式基准(MMVP),这是一组精心设计的视觉问答任务,旨在探测这些模型的视觉基础能力。结果显示,当前最先进的 MLLMs 存在系统性缺陷,突显了底层视觉编码器(如 CLIP)的弱点与整体模型性能之间的强相关性。这些发现表明,当前的 SFT 方法虽然在任务特定适应方面有效,但可能不足以赋予 MLLMs 强大的视觉理解能力和保留先前习得知识的能力。第二部分:利用强化学习实现鲁棒泛化认识到 SFT 的局限性后,本论文进一步探索了强化学习(RL)在实现更鲁棒和可泛化的多模态智能方面的潜力。我们提出了一种新颖的框架,用于通过 RL 微调大型视觉-语言模型(VLMs),使其能够在需要视觉理解和语言推理的任务上进行端到端训练。该框架的一个关键组成部分是引入了思维链(CoT)提示,利用 VLMs 固有的推理能力来促进更高效的探索和学习。我们对 RL 和 SFT 进行了对比分析,重点关注对未见规则变化和新视觉情境的泛化能力。结果表明,与 SFT 相比,RL 微调始终能带来更优越的泛化性能。通过 RL 训练的模型在规则修改的任务上表现更好,能够更有效地适应视觉输入的变化,甚至展现出增强的底层视觉识别能力。此外,我们研究了推理时计算的作用,证明在 RL 训练期间增加验证迭代次数可以进一步提高泛化能力。这突显了 SFT 虽然为指令遵循提供了必要的基础,但 RL 对于在复杂、动态环境中实现鲁棒、适应性强的性能至关重要。总结本论文提供了有力的证据,表明当前基于 SFT 的多模态基础模型训练存在局限性,并展示了 RL 在克服这些局限性方面的巨大潜力,为开发更具泛化能力和智能的 AI 系统铺平了道路。