【CVPR2023】基于文本驱动软掩码的多模态表示学习

2023 年 4 月 10 日 专知

本文提出一种自监督学习框架内的视觉语言表示学习方法,通过引入新的操作、损失和数据增强策略。首先,通过软掩蔽图像中与对应标题中的某个单词最相关的区域,而不是完全删除它们,为图像文本匹配(image text matching, ITM)任务生成多样化的特征。由于该框架只依赖于没有细粒度注释的图像-标题对,通过使用多模态编码器计算单词条件视觉注意来识别每个单词的相关区域。通过提出图像-文本对比学习(ITC)目标的焦点损失,鼓励模型更多地关注难的但多样化的例子,这缓解了过拟合和偏差问题的固有局限性。通过挖掘各种示例,通过屏蔽文本和对图像渲染失真,对自监督学习进行多模态数据增强。这三种创新的结合对学习预训练模型是有效的,导致在多个视觉-语言下游任务上的出色表现。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复或发消息“MTDM” 就可以获取《【CVPR2023】基于文本驱动软掩码的多模态表示学习》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
1

相关内容

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
16+阅读 · 2023年3月2日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
【KDD2022】GraphMAE:自监督掩码图自编码器
专知
7+阅读 · 2022年6月12日
【CVPR2021】跨模态检索的概率嵌入
专知
16+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
深度多模态表示学习综述论文,22页pdf
专知
28+阅读 · 2020年6月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
28+阅读 · 2021年10月1日
VIP会员
相关VIP内容
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
16+阅读 · 2023年3月2日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员