Inspired by the success of BERT, several multimodal representation learning approaches have been proposed that jointly represent image and text. These approaches achieve superior performance by capturing high-level semantic information from large-scale multimodal pretraining. In particular, LXMERT and UNITER adopt visual region feature regression and label classification as pretext tasks. However, they tend to suffer from the problems of noisy labels and sparse semantic annotations, based on the visual features having been pretrained on a crowdsourced dataset with limited and inconsistent semantic labeling. To overcome these issues, we propose unbiased Dense Contrastive Visual-Linguistic Pretraining (DCVLP), which replaces the region regression and classification with cross-modality region contrastive learning that requires no annotations. Two data augmentation strategies (Mask Perturbation and Intra-/Inter-Adversarial Perturbation) are developed to improve the quality of negative samples used in contrastive learning. Overall, DCVLP allows cross-modality dense region contrastive learning in a self-supervised setting independent of any object annotations. We compare our method against prior visual-linguistic pretraining frameworks to validate the superiority of dense contrastive learning on multimodal representation learning.


翻译:在BERT的成功激励下,提出了几种多式联运代表学习方法,这些方法共同代表图像和文字,这些方法通过从大型多式联运预培训中获取高层次的语义信息而取得优异性能,特别是LTMERT和UNITER采用视觉区域特征回归和标签分类作为托辞任务,但是,它们往往会因杂乱的标签和稀疏的语义说明问题而受害,其依据是视觉特征,这些特征先于以数量有限和前后不一致的语义标签为特点的众源数据集。为了克服这些问题,我们提议采用不带偏见的多式多语种视觉语言预培训(DCVLP)来取代区域回归和分类,代之以无需说明的跨现代对比区域对比学习。我们制定了两种数据强化战略(Mask Perturbation和Intra/Inter-Aversarial Perturbation),目的是提高对比性学习中使用的负面样本的质量。总体来说,DCVLP允许跨模式密集的区域对比学习,以自我控制的方式独立地设置任何对象说明。我们比较了先前的图像上高超度代表制的对比框架。

6
下载
关闭预览

相关内容

专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
88+阅读 · 2021年6月29日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
【AAAI2021】对比聚类,Contrastive Clustering
专知
25+阅读 · 2021年1月30日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
31+阅读 · 2020年9月21日
VIP会员
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
25+阅读 · 2021年1月30日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员