人类通过整合多种感官信息(包括视觉、语言和听觉线索)来理解和与周围环境互动。视觉-语言表示学习领域致力于使机器学习视觉和文本数据之间的多模态关联与互动。本论文解决了三个关键问题:预训练数据的可扩展性、预训练目标的效率以及细粒度的视觉-语言对齐。 在数据可扩展性方面,我们关注利用未配对的图像和文本进行可扩展的视觉-语言表示学习。为了增强模态之间的隐式对齐并增加数据的多样性,我们引入了跨模态CutMix技术,该技术通过将视觉补丁与句子混合,创建多模态句子,即句子的多模态视图。通过将多样化的多模态句子融入对比学习,文本与多模态样本之间的实例级对齐得到了有效利用。我们的方法绕过了配对数据集的限制,促进了基于更广泛和更多样的未配对数据的可扩展多模态表示学习。 在学习效率方面,我们研究了加速视觉-语言预训练的方法。我们实证发现,训练效率的一个重要障碍在于掩码语言建模中的预测率(重建的令牌百分比)和破坏率(破坏的令牌百分比)交织在一起。具体来说,适当的破坏率是以大量输出令牌被排除在预测损失之外为代价的。为了克服这一限制,我们提出了自由语言建模(FLM),这是一种新的预训练目标,能够将预测率与破坏率在掩码语言建模中解耦。我们的方法通过允许为每个令牌自定义破坏范围,从而实现了更快的收敛,同时在下游视觉-语言任务中保持了竞争力的表现。 关于跨模态对齐粒度,我们深入研究了未修剪视频与自然语言之间的细粒度对齐。我们提出了一个针对未修剪视频的基础视觉-语言学习(GVL)框架,重点在于检测有信息量的事件并将多句描述与相应的事件段对齐。我们引入了并行解码范式(PDVC)用于密集视频字幕生成,以有效地对视频进行分段,从而提高生成的密集字幕的连贯性和可读性。此外,我们提出了两个双重预文本任务以促进细粒度的段级对齐:文本到事件对比和事件到文本生成。该框架具有广泛的适用性,可应用于视觉基础的语言理解与生成任务。 我们进行了大量实验以验证我们提出的方法。这些工作不仅推动了多模态学习的前沿,也为机器智能系统中视觉与语言的更高效、更有效的整合铺平了道路。