受BERT的成功启发,人们提出了几种联合表示图像和文本的多模态表示学习方法。这些方法通过从大规模的多模态预训练中获取高级语义信息来获得更好的性能。其中LXMERT和UNITER采用视觉区域特征回归和标签分类作为前置任务。然而,在语义标注有限且不一致的众包数据集上预先训练的视觉特征往往存在标签噪声过大和语义标注稀疏的问题。为了克服这些问题,我们提出了无偏密集对比视觉语言预训练(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注释的跨通道区域对比学习代替区域回归和分类。为了提高对比学习中负样本的质量,我们提出了两种数据增强策略(掩模扰动和对抗内/对抗间扰动)。总之,DCVLP允许在独立于任何对象注释的自监督设置中跨模态密集区域对比学习。我们将该方法与以往的视觉-语言前训练框架进行了比较,验证了密集对比学习在多模态表征学习中的优越性。

https://www.zhuanzhi.ai/paper/2bc0417fb02e06ba8f8cb7e1b7da39fc

成为VIP会员查看完整内容
13

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
23+阅读 · 2021年10月24日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
63+阅读 · 2021年3月12日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
15+阅读 · 2020年9月25日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
36+阅读 · 2020年9月2日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
7篇必读ACM MM 2019论文:图神经网络+多媒体
新智元
43+阅读 · 2019年11月9日
Arxiv
0+阅读 · 2021年11月30日
Arxiv
8+阅读 · 2021年10月28日
Arxiv
6+阅读 · 2021年9月24日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
9+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
23+阅读 · 2021年10月24日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
63+阅读 · 2021年3月12日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
15+阅读 · 2020年9月25日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
36+阅读 · 2020年9月2日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
微信扫码咨询专知VIP会员