大型多模态模型(LMMs)的研究已经成为深度学习领域的重点,展示了其在当代研究中的重要性。LMMs能够处理来自不同模态的数据,通过利用互补信息来执行多种任务,从而提高预测能力。LMMs的学习过程分为两个关键阶段:计算密集的预训练阶段,旨在从大规模的噪声数据中获取通用表示;以及后续的微调阶段,专注于将预训练模型调整到特定任务上。传统上,基础LMMs的预训练被认为是拥有丰富计算资源的研究实验室的专属特权。在本论文中,我们提出了一种用于高效预训练基础视觉-语言模型(VLMs)的新方法。这涉及通过专门的预训练过程,利用现成的冻结大型语言模型(LLMs),从而减少对数据的需求。此外,我们引入了一种高效的VLM预训练方法,减少模态投影中的冗余。通过我们的方法,训练LLMs所需的数据量从1.29亿实例大幅减少到400万实例,并且相关的训练成本可减少至1/10,而性能几乎没有显著下降。此外,我们提出了一种简单但强大的时序融合机制,用于将预训练的图像-语言模型适应下游的视频任务。我们的视频描述模型在没有大量视频-文本数据集预训练的情况下,能够达到与最新基准竞争的性能。除了在计算机视觉和自然语言处理中的多模态研究领域外,我们的研究还扩展到了生物信息学领域,通过研究蛋白质-RNA模型进行多模态学习。我们的研究结果表明,预训练的蛋白质模型包含可与RNA共享的生物结构信息。鉴于实验解析的RNA结构数量有限,我们的发现为蛋白质和RNA之间的迁移学习开启了新的研究方向。最后,我们采用物理增强模拟来训练T细胞-肽模型,表明在机器学习中整合这种模拟显著提高了模型训练效果,尤其是在标记数据有限的情况下。这凸显了将模拟与机器学习结合的潜力,为推动生物领域LMMs的训练提供了宝贵的策略。
在过去的十年中,深度学习研究取得了显著进展,并在多个领域中取得了卓越的成就,包括图像分类、图像分割、动作识别和语言建模。尽管这些模型通过在大量特定领域的数据集上训练,表现出了在特定任务中的优异性能,但当代的研究已经转向开发能够跨多种模态(如视觉、语言和音频)解释信息的模型。 此外,鉴于可以提升模型预测能力的潜力,近期的研究倡导训练能够无缝整合不同模态信息的模型。例如,在在线会议的背景下,向模型展示一个视频可以通过同时考虑视觉内容(展示人类活动)和听觉线索(捕捉会话动态)来提高摘要质量。这种互补模态的整合有助于做出更为准确的决策。 多模态学习的研究也致力于模拟人类从多种来源获取知识的能力。通过促进类似于人类感知和认知功能的能力获取,这些模型旨在突破单一模态的限制,展现出对信息感知和表达的整体理解。 计算机视觉和自然语言处理领域的蓬勃发展推动了多模态学习领域的显著进展,特别是在视觉-语言模型的开发方面。当前的主流范式通常分为两个阶段: * 预训练阶段:这一初始阶段通过利用大规模的网络数据集进行模型的预训练,使模型能够获取覆盖视觉和语言领域的广泛知识。这些通常被称为“基础模型”的预训练模型,作为多模态数据中的复杂模式和表示的基础。 * 微调阶段:在预训练之后,基础模型会进行微调,以适应特定任务的需求。值得注意的是,在某些情况下,模型无需微调即可通过上下文学习生成预测。此阶段在将模型的能力调整至任务特定需求方面起着关键作用。
在接下来的章节中,我们将深入探讨这两个训练阶段。本论文引入了一种新颖的模态投影模块,并提出了一种新的学习范式,旨在提高视觉-语言模型预训练的效率。此外,还将详细阐述新型微调模块,特别针对在训练样本有限的情况下,将预训练的基础模型适应于特定任务的挑战。通过这些贡献,本研究旨在推进对视觉-语言模型多模态学习的理解和效率提升。