【CVPR2023】基于文本驱动软掩码的多模态表示学习 - 专知VIP

会员服务 ·

8

CVPR 2023 · 多模态表示学习 · 自监督学习 ·

2023 年 4 月 10 日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出一种自监督学习框架内的视觉语言表示学习方法，通过引入新的操作、损失和数据增强策略。首先，通过软掩蔽图像中与对应标题中的某个单词最相关的区域，而不是完全删除它们，为图像文本匹配(image text matching, ITM)任务生成多样化的特征。由于该框架只依赖于没有细粒度注释的图像-标题对，通过使用多模态编码器计算单词条件视觉注意来识别每个单词的相关区域。通过提出图像-文本对比学习(ITC)目标的焦点损失，鼓励模型更多地关注难的但多样化的例子，这缓解了过拟合和偏差问题的固有局限性。通过挖掘各种示例，通过屏蔽文本和对图像渲染失真，对自监督学习进行多模态数据增强。这三种创新的结合对学习预训练模型是有效的，导致在多个视觉-语言下游任务上的出色表现。https://arxiv.org/abs/2304.00719

成为VIP会员查看完整内容

21

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

专知会员服务

32+阅读 · 2023年3月3日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

9+阅读 · 2023年4月6日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

COLING 2022 | 清华美团提出DABERT：针对匹配任务的双通道注意力增强预训练模型

COLING 2022 | 清华美团提出DABERT：针对匹配任务的双通道注意力增强预训练模型

PaperWeekly

0+阅读 · 2022年11月5日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

ECCV 2022 | 视频理解新框架X-CLIP：仅用微调的成本，达到预训练的全能

ECCV 2022 | 视频理解新框架X-CLIP：仅用微调的成本，达到预训练的全能

PaperWeekly

0+阅读 · 2022年8月9日

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知

7+阅读 · 2022年6月12日

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

开放知识图谱

0+阅读 · 2022年5月29日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

跨模态人脸特征学习方法及其应用研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于嵌入性视角的新兴产业创新生态系统作用机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂场景视觉注意对象分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于相机的低质量文本图像的复原与增强关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

知识与数据混合驱动的概率图模型研究及在行为分析中的应用

国家自然科学基金

2+阅读 · 2012年12月31日

语义知识驱动的网络上下文广告投放高效方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于计算智能的语义图像挖掘方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于视觉显著性的图像内容分析与检索

国家自然科学基金

0+阅读 · 2011年12月31日

应急任务生成的决策机制与管理支持方法研究

国家自然科学基金

4+阅读 · 2009年12月31日

SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

Arxiv

0+阅读 · 2023年5月26日

Accelerating Diffusion Models for Inverse Problems through Shortcut Sampling

Arxiv

0+阅读 · 2023年5月26日

ConvGQR: Generative Query Reformulation for Conversational Search

ConvGQR: Generative Query Reformulation for Conversational Search

Arxiv

0+阅读 · 2023年5月26日

Binding Logic: proofs and models

Arxiv

0+阅读 · 2023年5月25日

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

Arxiv

0+阅读 · 2023年5月24日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

VIP会员

相关主题

多模态表示学习

自监督学习

相关VIP内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

专知会员服务

32+阅读 · 2023年3月3日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

9+阅读 · 2023年4月6日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

COLING 2022 | 清华美团提出DABERT：针对匹配任务的双通道注意力增强预训练模型

COLING 2022 | 清华美团提出DABERT：针对匹配任务的双通道注意力增强预训练模型

PaperWeekly

0+阅读 · 2022年11月5日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

ECCV 2022 | 视频理解新框架X-CLIP：仅用微调的成本，达到预训练的全能

ECCV 2022 | 视频理解新框架X-CLIP：仅用微调的成本，达到预训练的全能

PaperWeekly

0+阅读 · 2022年8月9日

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知

7+阅读 · 2022年6月12日

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

开放知识图谱

0+阅读 · 2022年5月29日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

相关基金

跨模态人脸特征学习方法及其应用研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于嵌入性视角的新兴产业创新生态系统作用机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂场景视觉注意对象分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于相机的低质量文本图像的复原与增强关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

知识与数据混合驱动的概率图模型研究及在行为分析中的应用

国家自然科学基金

2+阅读 · 2012年12月31日

语义知识驱动的网络上下文广告投放高效方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于计算智能的语义图像挖掘方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于视觉显著性的图像内容分析与检索

国家自然科学基金

0+阅读 · 2011年12月31日

应急任务生成的决策机制与管理支持方法研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

Arxiv

0+阅读 · 2023年5月26日

Accelerating Diffusion Models for Inverse Problems through Shortcut Sampling

Arxiv

0+阅读 · 2023年5月26日

ConvGQR: Generative Query Reformulation for Conversational Search

ConvGQR: Generative Query Reformulation for Conversational Search

Arxiv

0+阅读 · 2023年5月26日

Binding Logic: proofs and models

Arxiv

0+阅读 · 2023年5月25日

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

Arxiv

0+阅读 · 2023年5月24日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

微信扫码咨询专知VIP会员