【CVPR2023】基于文本驱动软掩码的多模态表示学习 - 专知

会员服务 ·

0

【CVPR2023】基于文本驱动软掩码的多模态表示学习

2023 年 4 月 10 日 专知

本文提出一种自监督学习框架内的视觉语言表示学习方法，通过引入新的操作、损失和数据增强策略。首先，通过软掩蔽图像中与对应标题中的某个单词最相关的区域，而不是完全删除它们，为图像文本匹配(image text matching, ITM)任务生成多样化的特征。由于该框架只依赖于没有细粒度注释的图像-标题对，通过使用多模态编码器计算单词条件视觉注意来识别每个单词的相关区域。通过提出图像-文本对比学习(ITC)目标的焦点损失，鼓励模型更多地关注难的但多样化的例子，这缓解了过拟合和偏差问题的固有局限性。通过挖掘各种示例，通过屏蔽文本和对图像渲染失真，对自监督学习进行多模态数据增强。这三种创新的结合对学习预训练模型是有效的，导致在多个视觉-语言下游任务上的出色表现。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复或发消息“MTDM” 就可以获取《【CVPR2023】基于文本驱动软掩码的多模态表示学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

1

相关内容

文本驱动

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

31+阅读 · 2023年4月7日

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

专知会员服务

35+阅读 · 2023年3月14日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

2+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知

7+阅读 · 2022年6月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向点击与视觉特征融合的结构化图像排序方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

查询语义分析驱动的多层次交互式查询意图识别技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

深紫外准分子激光辐照固体透明介质激发光致损伤的物理机制及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于Hybrid方法的大型冗余驱动机构控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多示例学习的多模态信息表达与推荐方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

文本多粒度关系抽取半监督自适应学习的研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

面向语义概念和上下文关系的图像检索关键技术研究

国家自然科学基金

1+阅读 · 2008年12月31日

Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models

Arxiv

0+阅读 · 2023年5月30日

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods

Arxiv

0+阅读 · 2023年5月30日

Perceived Trustworthiness of Natural Language Generators

Arxiv

1+阅读 · 2023年5月29日

ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback

Arxiv

1+阅读 · 2023年5月29日

Transfer Learning for Personality Perception via Speech Emotion Recognition

Arxiv

0+阅读 · 2023年5月28日

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation

Arxiv

0+阅读 · 2023年5月28日

Unsupervised Melody-Guided Lyrics Generation

Arxiv

0+阅读 · 2023年5月26日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Arxiv

28+阅读 · 2022年6月8日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

VIP会员

相关主题

多模态表示学习

相关VIP内容

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

31+阅读 · 2023年4月7日

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

专知会员服务

35+阅读 · 2023年3月14日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

2+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知

7+阅读 · 2022年6月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

相关基金

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向点击与视觉特征融合的结构化图像排序方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

查询语义分析驱动的多层次交互式查询意图识别技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

深紫外准分子激光辐照固体透明介质激发光致损伤的物理机制及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于Hybrid方法的大型冗余驱动机构控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多示例学习的多模态信息表达与推荐方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

文本多粒度关系抽取半监督自适应学习的研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

面向语义概念和上下文关系的图像检索关键技术研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models

Arxiv

0+阅读 · 2023年5月30日

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods

Arxiv

0+阅读 · 2023年5月30日

Perceived Trustworthiness of Natural Language Generators

Arxiv

1+阅读 · 2023年5月29日

ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback

Arxiv

1+阅读 · 2023年5月29日

Transfer Learning for Personality Perception via Speech Emotion Recognition

Arxiv

0+阅读 · 2023年5月28日

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation

Arxiv

0+阅读 · 2023年5月28日

Unsupervised Melody-Guided Lyrics Generation

Arxiv

0+阅读 · 2023年5月26日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Arxiv

28+阅读 · 2022年6月8日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

大家都在搜

大型语言模型

CMU博士论文

国防科技创新

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员