视觉语言表征学习在很大程度上受益于图像-文本的对比损失(例如InfoNCE损失)。这种对齐策略的成功是由于它能够最大化图像与匹配文本之间的互信息(MI)。然而,简单地执行跨模态对齐(CMA)忽略了每个模态中的数据潜力,这可能导致表示的退化。例如,尽管基于CMA的模型能够将图像-文本对在嵌入空间中紧密地映射在一起,但它们不能确保来自相同模态的相似输入保持在一起。当训练前的数据有噪声时,这个问题会变得更糟。在本文中,我们提出了利用跨模态和内模态自监督的三重对比学习(TCL)来进行视觉语言预训练。除了CMA之外,TCL还引入了一个模态内对比目标,以在表示学习中提供互补的好处。为了利用来自图像和文本输入的局部和结构信息,TCL进一步最大化了图像/文本局部区域和它们的全局摘要之间的平均MI。据我们所知,我们的工作是第一个考虑到局部结构信息的多模态表示学习。实验评估表明,我们的方法在各种常见的下游视觉语言任务,如图像-文本检索和视觉问题回答上具有竞争力,达到了最新的技术水平。

https://www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9

成为VIP会员查看完整内容
31

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
66+阅读 · 2022年2月23日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
38+阅读 · 2021年6月13日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
中科院自动化所:最新视觉-语言预训练综述
PaperWeekly
3+阅读 · 2022年3月1日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
3+阅读 · 2022年4月19日
VIP会员
相关VIP内容
中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
66+阅读 · 2022年2月23日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
38+阅读 · 2021年6月13日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员