【ACMMM2021】密集对比视觉语言预训练 - 专知VIP

会员服务 ·

0

对比学习 · 视觉语言预训练 · ACM Multimedia ·

2021 年 10 月 11 日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

受BERT的成功启发，人们提出了几种联合表示图像和文本的多模态表示学习方法。这些方法通过从大规模的多模态预训练中获取高级语义信息来获得更好的性能。其中LXMERT和UNITER采用视觉区域特征回归和标签分类作为前置任务。然而，在语义标注有限且不一致的众包数据集上预先训练的视觉特征往往存在标签噪声过大和语义标注稀疏的问题。为了克服这些问题，我们提出了无偏密集对比视觉语言预训练(unbiased Dense contrast visual - language Pretraining, DCVLP)，它用不需要注释的跨通道区域对比学习代替区域回归和分类。为了提高对比学习中负样本的质量，我们提出了两种数据增强策略(掩模扰动和对抗内/对抗间扰动)。总之，DCVLP允许在独立于任何对象注释的自监督设置中跨模态密集区域对比学习。我们将该方法与以往的视觉-语言前训练框架进行了比较，验证了密集对比学习在多模态表征学习中的优越性。

https://www.zhuanzhi.ai/paper/2bc0417fb02e06ba8f8cb7e1b7da39fc

成为VIP会员查看完整内容

13

相关内容

对比学习

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法，它通过学习编码来构建表征，编码使两个事物相似或不同

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】谱空间卷积全色锐化

专知会员服务

14+阅读 · 2021年9月23日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

专知会员服务

27+阅读 · 2020年12月6日

【ACMMM2020】小规模行人检测的自模拟学习

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

AINLP

5+阅读 · 2020年11月16日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

StyleMesh: Style Transfer for Indoor 3D Scene Reconstructions

Arxiv

0+阅读 · 2021年12月2日

CT-CPP: Coverage Path Planning for 3D Terrain Reconstruction Using Dynamic Coverage Trees

Arxiv

0+阅读 · 2021年12月2日

3D Reconstruction Using a Linear Laser Scanner and a Camera

Arxiv

0+阅读 · 2021年12月1日

Neural RGB-D Surface Reconstruction

Arxiv

0+阅读 · 2021年11月30日

Cycle Self-Training for Domain Adaptation

Arxiv

8+阅读 · 2021年10月28日

Dense Contrastive Visual-Linguistic Pretraining

Arxiv

6+阅读 · 2021年9月24日

SelfVIO: Self-Supervised Deep Monocular Visual-Inertial Odometry and Depth Estimation

Arxiv

5+阅读 · 2019年11月22日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

Signal Processing and Piecewise Convex Estimation

Arxiv

4+阅读 · 2018年3月14日

Collaborative Autoencoder for Recommender Systems

Arxiv

9+阅读 · 2018年1月30日

VIP会员

相关主题

视觉语言预训练

相关VIP内容

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】谱空间卷积全色锐化

专知会员服务

14+阅读 · 2021年9月23日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

专知会员服务

27+阅读 · 2020年12月6日

【ACMMM2020】小规模行人检测的自模拟学习

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】以人为中心的强化学习

任务规划与地形分析：现代复杂环境作战导航体系

认知优势：人工智能在国家安全决策中的核心作用

大模型赋能的具身智能：决策与具身学习综述

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

AINLP

5+阅读 · 2020年11月16日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

相关论文

StyleMesh: Style Transfer for Indoor 3D Scene Reconstructions

Arxiv

0+阅读 · 2021年12月2日

CT-CPP: Coverage Path Planning for 3D Terrain Reconstruction Using Dynamic Coverage Trees

Arxiv

0+阅读 · 2021年12月2日

3D Reconstruction Using a Linear Laser Scanner and a Camera

Arxiv

0+阅读 · 2021年12月1日

Neural RGB-D Surface Reconstruction

Arxiv

0+阅读 · 2021年11月30日

Cycle Self-Training for Domain Adaptation

Arxiv

8+阅读 · 2021年10月28日

Dense Contrastive Visual-Linguistic Pretraining

Arxiv

6+阅读 · 2021年9月24日

SelfVIO: Self-Supervised Deep Monocular Visual-Inertial Odometry and Depth Estimation

Arxiv

5+阅读 · 2019年11月22日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

Signal Processing and Piecewise Convex Estimation

Arxiv

4+阅读 · 2018年3月14日

Collaborative Autoencoder for Recommender Systems

Arxiv

9+阅读 · 2018年1月30日

微信扫码咨询专知VIP会员