【CVPR2021】跨模态检索的概率嵌入 - 专知VIP

会员服务 ·

1

跨模态检索 · CVPR 2021 ·

2021 年 3 月 2 日

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

跨模态检索方法为来自多种模态的样本建立了一个共同的表示空间，尤其是来自视觉和语言领域的样本。对于图像和它们的说明文字，对应的多样性使得这项任务特别具有挑战性。给定一个图像(分别是一个标题)，有多个同样有意义的标题(分别是图像)。在本文中，我们认为确定性函数不足以捕获这种一对多对应。相反，我们提出使用概率交叉模态嵌入(PCME)，来自不同模态的样本在公共嵌入空间中表示为概率分布。由于诸如COCO这样的通用基准测试在跨模态匹配时存在非详尽注释的问题，我们建议额外评估CUB数据集上的检索，这是一个更小但更干净的数据库，其中所有可能的图像标题对都被注释。我们广泛地ablate PCME，并证明它不仅提高了检索性能，其确定性对等物，但也提供不确定性估计，使嵌入更可解释。

https://arxiv.org/abs/2011.11108

成为VIP会员查看完整内容

20

相关内容

跨模态检索

跨模态检索

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】动态度量学习

【CVPR2021】动态度量学习

专知会员服务

40+阅读 · 2021年3月30日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【AAAI2021】用于视频描述的语义分组网络

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

16+阅读 · 2021年2月3日

最新《对比监督学习》综述论文，20页pdf

最新《对比监督学习》综述论文，20页pdf

专知会员服务

85+阅读 · 2020年11月5日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

开放知识图谱

16+阅读 · 2020年9月11日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

开放知识图谱

8+阅读 · 2019年3月11日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

CVPR 2018 | 商汤科技论文详解：基于空间特征调制的图像超分辨率

CVPR 2018 | 商汤科技论文详解：基于空间特征调制的图像超分辨率

商汤科技

16+阅读 · 2018年5月27日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

GAN生成式对抗网络

9+阅读 · 2018年4月3日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

Improving Adversarial Robustness Using Proxy Distributions

Arxiv

1+阅读 · 2021年4月19日

Progressive Encoding for Neural Optimization

Arxiv

0+阅读 · 2021年4月19日

Distributed Graph Convolutional Networks

Arxiv

19+阅读 · 2020年7月13日

SetExpan: Corpus-Based Set Expansion via Context Feature Selection and Rank Ensemble

Arxiv

3+阅读 · 2019年10月17日

Linkage between Piecewise Constant Mumford-Shah model and ROF model and its virtue in image segmentation

Linkage between Piecewise Constant Mumford-Shah model and ROF model and its virtue in image segmentation

Arxiv

4+阅读 · 2018年7月26日

Homocentric Hypersphere Feature Embedding for Person Re-identification

Arxiv

5+阅读 · 2018年5月1日

A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-Ranking

Arxiv

3+阅读 · 2018年4月2日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

Ripple Network: Propagating User Preferences on the Knowledge Graph for Recommender Systems

Arxiv

12+阅读 · 2018年3月9日

Application of Rényi and Tsallis Entropies to Topic Modeling Optimization

Arxiv

6+阅读 · 2018年2月28日

VIP会员

相关主题

跨模态检索

相关VIP内容

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】动态度量学习

【CVPR2021】动态度量学习

专知会员服务

40+阅读 · 2021年3月30日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【AAAI2021】用于视频描述的语义分组网络

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

16+阅读 · 2021年2月3日

最新《对比监督学习》综述论文，20页pdf

最新《对比监督学习》综述论文，20页pdf

专知会员服务

85+阅读 · 2020年11月5日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《巡飞弹药（爆炸性无人机）威胁态势分析》最新24页报告

《军用后勤无人机：破解战场运输挑战的创新方案》

人工智能战争：以色列、伊朗与新型AI战争形态

《俄乌战争：现代战争未来的启示与经验》

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

开放知识图谱

16+阅读 · 2020年9月11日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

开放知识图谱

8+阅读 · 2019年3月11日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

CVPR 2018 | 商汤科技论文详解：基于空间特征调制的图像超分辨率

CVPR 2018 | 商汤科技论文详解：基于空间特征调制的图像超分辨率

商汤科技

16+阅读 · 2018年5月27日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

GAN生成式对抗网络

9+阅读 · 2018年4月3日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Improving Adversarial Robustness Using Proxy Distributions

Arxiv

1+阅读 · 2021年4月19日

Progressive Encoding for Neural Optimization

Arxiv

0+阅读 · 2021年4月19日

Distributed Graph Convolutional Networks

Arxiv

19+阅读 · 2020年7月13日

SetExpan: Corpus-Based Set Expansion via Context Feature Selection and Rank Ensemble

Arxiv

3+阅读 · 2019年10月17日

Linkage between Piecewise Constant Mumford-Shah model and ROF model and its virtue in image segmentation

Linkage between Piecewise Constant Mumford-Shah model and ROF model and its virtue in image segmentation

Arxiv

4+阅读 · 2018年7月26日

Homocentric Hypersphere Feature Embedding for Person Re-identification

Arxiv

5+阅读 · 2018年5月1日

A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-Ranking

Arxiv

3+阅读 · 2018年4月2日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

Ripple Network: Propagating User Preferences on the Knowledge Graph for Recommender Systems

Arxiv

12+阅读 · 2018年3月9日

Application of Rényi and Tsallis Entropies to Topic Modeling Optimization

Arxiv

6+阅读 · 2018年2月28日

微信扫码咨询专知VIP会员