基于深度学习的跨模态检索综述

2021 年 3 月 25 日 专知


近年来,由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,它将一种模态的数据作为查询去检索其它模态的数据。例如,用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广以及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大地缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文将从以下角度综述近些年来代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为三类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述信息呈现递增的情况,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了七类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含其中部分关键技术,其中代表性方法将被具体阐述。同时本文将对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,本文总结了部分代表性的跨模态检索数据库。最后本文讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。


http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202012310000005&journal_id=jig


在过去的二十几年里,不同类型的媒体数据如文 本、图像和视频迅速增长。通常,这些不同类型的 数据用于描述相同的事件或主题。例如,网页通常 不仅包含文本描述,还包含与之匹配的图像或视频。这些不同类型的数据被称为多模态数据,表现出模 态间异构特性并具有广泛的应用,如图 1 所示,互 联网与社交媒体涌现的大规模多模态数据可以用于 进行主题检测、信息推荐、检索等。


多模态数据的迅速增长使得用户很难有效地搜 索感兴趣的信息,也就衍生了各种各样的检索、搜 索技术。然而这些搜索技术大多是针对单一模态内 检索,如基于关键字的检索和基于内容的检索,它 们只执行相同媒体类型的相似性搜索,如文本检索、 图像检索、音频检索和视频检索。近些年来,移动 设备和新兴的社交网站(如 Facebook、Flickr、 YouTube 和 Twitter)的普及使得用户对跨模态数据 检索的要求越来越高。例如,用户正在游览长城, 希望通过拍照检索相关的文本、音频等材料作为指 南。通常,跨模态检索的目的是以一种模态的数据作为查询来检索相关的其它模态数据。



近些年来,跨模态检索引起了研究者广泛的研究 兴趣。一般来说,与传统的单模态检索方法相比, 跨模态检索需要构建跨模态关系模型,以便用户可 以通过提交他们所拥有的模态来检索他们期望的模 态。因此,跨模态检索的挑战在于如何度量不同模 态数据之间的内容相似性,也称之为异质鸿沟问题 (heterogeneity gap)。近些年来,随着深度学习技 术的推广以及其在计算机视觉、自然语言处理、语 音分析等领域的显著成果(LeCun 等,2015),以 深度学习技术为基础的表示学习对于缓解异质鸿沟 问题提供了一种有前景的解决方案。大量的深度跨 模态检索技术被提出并取得了优异的跨模态检索性 能,在学术界和工业界产生了广泛的影响。




本文旨在对深度跨模态检索提供全面的综述。在 此之前, 本文作者在该方向进行了深入的研究,从 特征选择、子空间对齐、模态缺失、语义顺序学习、 小样本学习等方面进行了较多探索(Huang 等 2020;Huang 等,2019;Huang 等,2019;Huang 等, 2018;Yin 等,2017;Huang 等,2017;Wang 等, 2016;Xu 等,2016;He 等 2015;Huang 等,2015;Wang 等,2013;Yin 等,2018),对于该领域当 前的研究现状和近几年的最新进展较为熟悉,这也 是作者们立足自身研究基础选择撰写该综述的主要 原因。Liu 等人(2010)在 2010 年进行了跨模态检索综述,但是无法囊括近些年来涌现的新方法新工 作。Xu 等人(2013)在 2013 年进行了多视角学习 综述但却并非针对异质模态且检索任务。Peng 等人 (2017)在 2017 年发表了跨模态检索的综述论文, 但当时没有对 2017 年之后的跨模态检索方法进行 总结。近些年来,Baltrusaitis 等人(2019)对多模 态机器学习进行了综述和分类,但是其研究重点过 于分散,无法涵盖跨模态检索任务的所有重要问题。针对跨模态检索面临的各种挑战性问题,研究者提 供了各种思路和技术。本文着重总结了这些与以往 相关研究有很大不同的深度跨模态检索的最新研究 成果。需要注意的是,本文关注在跨模态检索这一 基本跨模态分析任务上,其它相关主题,如图像/视 频描述、图文问答等文献(Li 等,2019;Srivastava 等,2019)不在本文讨论范围内。


本文的主要贡献如下:


 本文综述了深度跨模态检索的最新进展。它 包含了许多在以前的综述中没有出现的新 的重要的参考文献,该综述有利于初学者快 速了解和熟悉跨模态检索领域。 


 本文对深度跨模态检索方法进行了分类,介 绍了不同类别下的代表性方法并重点阐述 了同类下不同方法以及不同类方法之间的 差异,这有助于该领域研究者更好理解跨模 态检索领域中使用的各种技术。


 本文对深度跨模态检索领域面临的机遇和 挑战进行了梳理,并总结了未来该领域的发 展方向,这将有助于启发进而做出更有价值 的跨模态检索工作。 


本文的整体组织结构如下。第二章给出深度跨模 态检索的分类依据与方法。第三章介绍不同类别下 代表性的深度跨模态检索算法与其区别。第四章给 出广泛使用的基准跨模态数据库。第五章进行讨论 与未来展望。最后,第六章对本文进行总结。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“跨模态检索” 就可以获取基于深度学习的跨模态检索综述f》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

专知会员服务
39+阅读 · 2021年5月30日
专知会员服务
69+阅读 · 2021年5月21日
基于深度学习的视频目标检测综述
专知会员服务
81+阅读 · 2021年5月19日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
45+阅读 · 2021年3月24日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
45+阅读 · 2020年12月4日
多模态视觉语言表征学习研究综述
专知会员服务
190+阅读 · 2020年12月3日
基于知识图谱的推荐系统研究综述
专知会员服务
326+阅读 · 2020年8月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于深度学习的多标签生成研究进展
专知
4+阅读 · 2020年4月25日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
基于深度学习的视频目标检测综述
CVer
7+阅读 · 2019年6月9日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
独家 | 基于深度学习的行人重识别研究综述
AI科技评论
11+阅读 · 2017年12月20日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
7+阅读 · 2019年10月6日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
VIP会员
相关VIP内容
专知会员服务
39+阅读 · 2021年5月30日
专知会员服务
69+阅读 · 2021年5月21日
基于深度学习的视频目标检测综述
专知会员服务
81+阅读 · 2021年5月19日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
45+阅读 · 2021年3月24日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
45+阅读 · 2020年12月4日
多模态视觉语言表征学习研究综述
专知会员服务
190+阅读 · 2020年12月3日
基于知识图谱的推荐系统研究综述
专知会员服务
326+阅读 · 2020年8月10日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于深度学习的多标签生成研究进展
专知
4+阅读 · 2020年4月25日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
基于深度学习的视频目标检测综述
CVer
7+阅读 · 2019年6月9日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
独家 | 基于深度学习的行人重识别研究综述
AI科技评论
11+阅读 · 2017年12月20日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
相关论文
Arxiv
16+阅读 · 2021年1月27日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
7+阅读 · 2019年10月6日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Top
微信扫码咨询专知VIP会员