对比损失被越来越多地用于学习来自多种模态的表示。在极限情况下,对比损失的性质鼓励模态在潜空间中精确匹配。然而,模态对齐如何影响下游任务性能仍然是一个开放问题。本文基于信息论论点,首先证明了精确的模态对齐通常对于下游预测任务是次优的。本文认为,更好性能的关键在于有意义的潜在模态结构,而不是完美的模态对齐。本文提出了三种通用的方法来构建潜在模态结构。设计了1)用于模态内正则化的深度特征分离损失;2)模态间正则化的Brownian损失;以及3)模态内和模态间正则化的几何一致性损失。在两种流行的多模态表示学习框架上进行了广泛的实验:基于CLIP的双塔模型和基于ALBEF的融合模型。在各种任务上测试了该模型,包括零样本/少样本图像分类、图像-文本检索、视觉问答、视觉推理和视觉蕴含。该方法比现有方法取得了一致的改进,证明了所提出方法在潜模态结构正则化上的有效性和泛化性。

https://www.zhuanzhi.ai/paper/edc57a45bc36f5ffe2fe15b450d50c94

成为VIP会员查看完整内容
34

相关内容

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,创下新纪录,今年接收了 2360 篇论文,接收率为 25.78%。作为对比,去年有 8100 多篇有效投稿,大会接收了 2067 篇,接收率为 25%。
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
20+阅读 · 2023年4月10日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
19+阅读 · 2023年3月28日
【CVPR2023】带缺失模态多模态提示的视觉识别
专知会员服务
22+阅读 · 2023年3月10日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
15+阅读 · 2021年10月4日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
面向跨模态匹配的噪声关联学习
PaperWeekly
0+阅读 · 2022年9月3日
ACL 2022 | 无监督句表示的去偏对比学习
RUC AI Box
0+阅读 · 2022年6月4日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月1日
Arxiv
4+阅读 · 2023年5月1日
VIP会员
相关VIP内容
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
20+阅读 · 2023年4月10日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
19+阅读 · 2023年3月28日
【CVPR2023】带缺失模态多模态提示的视觉识别
专知会员服务
22+阅读 · 2023年3月10日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
15+阅读 · 2021年10月4日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员