受BERT的成功启发,人们提出了几种联合表示图像和文本的多模态表示学习方法。这些方法通过从大规模的多模态预训练中获取高级语义信息来获得更好的性能。其中LXMERT和UNITER采用视觉区域特征回归和标签分类作为前置任务。然而,在语义标注有限且不一致的众包数据集上预先训练的视觉特征往往存在标签噪声过大和语义标注稀疏的问题。为了克服这些问题,我们提出了无偏密集对比视觉语言预训练(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注释的跨通道区域对比学习代替区域回归和分类。为了提高对比学习中负样本的质量,我们提出了两种数据增强策略(掩模扰动和对抗内/对抗间扰动)。总之,DCVLP允许在独立于任何对象注释的自监督设置中跨模态密集区域对比学习。我们将该方法与以往的视觉-语言前训练框架进行了比较,验证了密集对比学习在多模态表征学习中的优越性。
https://www.zhuanzhi.ai/paper/2bc0417fb02e06ba8f8cb7e1b7da39fc