本文提出一种自监督学习框架内的视觉语言表示学习方法,通过引入新的操作、损失和数据增强策略。首先,通过软掩蔽图像中与对应标题中的某个单词最相关的区域,而不是完全删除它们,为图像文本匹配(image text matching, ITM)任务生成多样化的特征。由于该框架只依赖于没有细粒度注释的图像-标题对,通过使用多模态编码器计算单词条件视觉注意来识别每个单词的相关区域。通过提出图像-文本对比学习(ITC)目标的焦点损失,鼓励模型更多地关注难的但多样化的例子,这缓解了过拟合和偏差问题的固有局限性。通过挖掘各种示例,通过屏蔽文本和对图像渲染失真,对自监督学习进行多模态数据增强。这三种创新的结合对学习预训练模型是有效的,导致在多个视觉-语言下游任务上的出色表现。