【CVPR2023】多模态表示学习中潜在模态结构的理解和构建 - 专知VIP

会员服务 ·

20

CVPR 2023 · 多模态表示学习 ·

2023 年 3 月 14 日

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

对比损失被越来越多地用于学习来自多种模态的表示。在极限情况下，对比损失的性质鼓励模态在潜空间中精确匹配。然而，模态对齐如何影响下游任务性能仍然是一个开放问题。本文基于信息论论点，首先证明了精确的模态对齐通常对于下游预测任务是次优的。本文认为，更好性能的关键在于有意义的潜在模态结构，而不是完美的模态对齐。本文提出了三种通用的方法来构建潜在模态结构。设计了1)用于模态内正则化的深度特征分离损失;2)模态间正则化的Brownian损失;以及3)模态内和模态间正则化的几何一致性损失。在两种流行的多模态表示学习框架上进行了广泛的实验:基于CLIP的双塔模型和基于ALBEF的融合模型。在各种任务上测试了该模型，包括零样本/少样本图像分类、图像-文本检索、视觉问答、视觉推理和视觉蕴含。该方法比现有方法取得了一致的改进，证明了所提出方法在潜模态结构正则化上的有效性和泛化性。

https://www.zhuanzhi.ai/paper/edc57a45bc36f5ffe2fe15b450d50c94

成为VIP会员查看完整内容

35

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

21+阅读 · 2023年4月10日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知

2+阅读 · 2022年10月18日

面向跨模态匹配的噪声关联学习

面向跨模态匹配的噪声关联学习

PaperWeekly

0+阅读 · 2022年9月3日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知

1+阅读 · 2022年8月10日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

ACL 2022 | 无监督句表示的去偏对比学习

ACL 2022 | 无监督句表示的去偏对比学习

RUC AI Box

0+阅读 · 2022年6月4日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

多模态fMRI信息融合的脑功能网络构建与分析

国家自然科学基金

2+阅读 · 2012年12月31日

基于多尺度分割的视觉显著性模型及其应用研究

国家自然科学基金

2+阅读 · 2011年12月31日

超洛伦兹-高斯光束的构建及其用于表征大角度激光束的研究

国家自然科学基金

0+阅读 · 2009年12月31日

三维模型语义分析与检索研究

国家自然科学基金

2+阅读 · 2008年12月31日

面向语义概念和上下文关系的图像检索关键技术研究

国家自然科学基金

1+阅读 · 2008年12月31日

Self-supervised arbitrary scale super-resolution framework for anisotropic MRI

Arxiv

0+阅读 · 2023年5月2日

On Web-based Visual Corpus Construction for Visual Document Understanding

Arxiv

0+阅读 · 2023年5月2日

CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation

Arxiv

0+阅读 · 2023年5月1日

What Do Self-Supervised Vision Transformers Learn?

Arxiv

0+阅读 · 2023年5月1日

Machine Explanations and Human Understanding

Arxiv

4+阅读 · 2023年5月1日

Part Aware Contrastive Learning for Self-Supervised Action Recognition

Arxiv

0+阅读 · 2023年5月1日

Bootstrap Latent Representations for Multi-modal Recommendation

Arxiv

0+阅读 · 2023年5月1日

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency

Arxiv

0+阅读 · 2023年4月30日

Identity-driven Three-Player Generative Adversarial Network for Synthetic-based Face Recognition

Arxiv

1+阅读 · 2023年4月30日

Redundant representations help generalization in wide neural networks

Arxiv

0+阅读 · 2023年4月29日

VIP会员

相关主题

多模态表示学习

相关VIP内容

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

21+阅读 · 2023年4月10日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知

2+阅读 · 2022年10月18日

面向跨模态匹配的噪声关联学习

面向跨模态匹配的噪声关联学习

PaperWeekly

0+阅读 · 2022年9月3日

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

专知

1+阅读 · 2022年8月10日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

ACL 2022 | 无监督句表示的去偏对比学习

ACL 2022 | 无监督句表示的去偏对比学习

RUC AI Box

0+阅读 · 2022年6月4日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

多模态fMRI信息融合的脑功能网络构建与分析

国家自然科学基金

2+阅读 · 2012年12月31日

基于多尺度分割的视觉显著性模型及其应用研究

国家自然科学基金

2+阅读 · 2011年12月31日

超洛伦兹-高斯光束的构建及其用于表征大角度激光束的研究

国家自然科学基金

0+阅读 · 2009年12月31日

三维模型语义分析与检索研究

国家自然科学基金

2+阅读 · 2008年12月31日

面向语义概念和上下文关系的图像检索关键技术研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Self-supervised arbitrary scale super-resolution framework for anisotropic MRI

Arxiv

0+阅读 · 2023年5月2日

On Web-based Visual Corpus Construction for Visual Document Understanding

Arxiv

0+阅读 · 2023年5月2日

CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation

Arxiv

0+阅读 · 2023年5月1日

What Do Self-Supervised Vision Transformers Learn?

Arxiv

0+阅读 · 2023年5月1日

Machine Explanations and Human Understanding

Arxiv

4+阅读 · 2023年5月1日

Part Aware Contrastive Learning for Self-Supervised Action Recognition

Arxiv

0+阅读 · 2023年5月1日

Bootstrap Latent Representations for Multi-modal Recommendation

Arxiv

0+阅读 · 2023年5月1日

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency

Arxiv

0+阅读 · 2023年4月30日

Identity-driven Three-Player Generative Adversarial Network for Synthetic-based Face Recognition

Arxiv

1+阅读 · 2023年4月30日

Redundant representations help generalization in wide neural networks

Arxiv

0+阅读 · 2023年4月29日

微信扫码咨询专知VIP会员