【干货】2020年度图像图形学发展年度报告之九：基于深度学习的跨模态检索综述

2021 年 11 月 18 日 中国图象图形学学会CSIG

2020年度图像图形学发展年度报告之九：《基于深度学习的跨模态检索综述》由视觉大数据专业委员会组织撰写

关注公众号，回复“基于深度学习的跨模态检索综述”，即可下载详版学科发展报告。

点击阅读原文，即可阅读精简版学科发展报告。

摘要

由于多模态数据的快速增长，跨模态检索受到了研究者的广泛关注，它将一种模态的数据作为查询去检索其它模态的数据。例如，用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异，如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广以及其在计算机视觉、自然语言处理等领域的显著成果，研究者提出了一系列以深度学习为基础的跨模态检索方法，极大地缓解了不同模态间相似性度量的挑战，本文称之为深度跨模态检索。本文将从以下角度综述近些年来代表性的深度跨模态检索论文，基于所提供的跨模态信息将这些方法分为三类：基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说，上述信息呈现递增的情况，且提供学习的信息越多，跨模态检索性能越优。在上述不同类别下，涵盖了七类主流技术，即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含其中部分关键技术，其中代表性方法将被具体阐述。同时本文将对比提供不同跨模态数据信息下不同技术的区别，以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法，总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。

发展趋势与展望

尽管近些年来一系列基于深度神经网络的跨模态检索/哈希算法被提出并取得了相对优异的性能，算法在应用上仍然与用户的期待存在一定的鸿沟。因此，跨模态检索仍然是一个需要深耕的方向并吸引着越来越多的研究者。本文将简要介绍跨模态检索新的研究思路并讨论未来的一些迫切需要研究的方向。

1）跨模态检索新的研究思路。近些年来，部分研究者提出可迁移/可扩展/零样本的跨模态检索方法（Xu 等，2018；Xu 等，2019；Zhen 等，2020；Huang 等，2020；Liu 等，2019），该思路聚焦利用源域中标注类别的数据进行目标域无标注/有标注且类别与源域部分重叠或者完全不重叠的跨模态数据间检索，期望可以有效蒸馏源域中标注数据的信息提升目标域跨模态检索性能。上述研究不同于一般跨模态检索默认要求源域与目标域具有相同语义标注类别，因此更贴近真实跨模态检索应用场景。

2）收集大规模多种模态数据集。为提升跨模态检索性能，研究者设计了越来越复杂的算法，然而却缺少有效的包含多种模态数据且具有一定体量的跨模态基准数据集进行验证。当前的专用跨模态检索数据集如Wiki仅仅包含图像与文本两种模态且数据量很小，或者如NUS-WIDE数据集的文本模态仅仅为用户提供标签难以有效刻画模态表征。因此，收集大规模的且包含多种模态（语音、视频、图像、文本、草图等）的通用检索数据集是非常有用的一个研究方向。

3）少量且含有噪声的语义标注下的跨模态检索。随着互联网与社交媒体的飞速发展，如Flickr、YouTube、Facebook、MySpace、WeiBo、WeiXin等产生了大量的多模态数据。当前这些数据的在网络中以松散组织的方式存在，数据的标注是受限且包含巨大噪声的，同时进行所有数据的标注是不切实际的。因此如何使用这些有限且包含噪声标注的多模态数据进行跨模态检索将是未来的一个重要研究方向。

4）轻量级的跨模态检索。现实环境中存在大量的多模态数据，与之对应的是用户进行跨模态检索的需求和要求越来越高，因此对于算法的要求也变得更加苛刻。当前研究者设计了越来越大复杂度的算法以提升跨模态检索性能，但却难以满足检索效率的需求。因此，如何设计高效的且性能俱佳的跨模态检索算法是未来的一个至关重要的方向。

5）细粒度的跨模态相关性建模。大部分算法在跨模态共同表示学习时将不同模态数据通过深度神经网络非线性映射到共同表示空间，之后在该空间进行直接的跨模态度量。然而该类方法在多模态共同表示建模时太过粗糙，难以有效挖掘不同模态的一致性部分。近些年来在图像-文本跨模态检索任务中，一系列的细粒度的相关性建模方法被提出以有效挖掘图像与文本中片段级别的对应关系，取得了更好的跨模态相关性建模效果。因此如何针对不同模态类型提取片段级别表征并构建更复杂的片段级别关系建模将是未来的一个研究方向。

报告章节一览

1. 引言

2. 深度跨模态检索概述

3. 国内外代表方法

3.1 基于跨模态数据间一一对应

3.2 基于跨模态数据间相似度

3.3 基于跨模态数据语义标注

3.4 方法间对比

4. 典型数据库介绍

5. 讨论与展望

6. 结论

CSIG视觉大数据专委会介绍

在智能化时代，视觉技术作为一门综合性的热点前沿交叉学科，具有重要的研究研究意义和应用价值，在很多领域，机器视觉不断改变着我们的生活，成为构建智慧城市过程中不可或缺的“第三只眼”。目前，全球视觉数据正在呈现爆炸式增长，如何有效应对这些视觉大数据引起的挑战，充分利用视觉大数据带来的机遇，深入挖掘视觉大数据中蕴含的大价值，已经吸引了图形图像领域广大学者和从业人员的广泛关注。专委会旨在团结和组织视觉大数据相关领域的科研人员、企业技术专家等，通过学术交流，技术研讨等活动，分享科研心得、畅谈学术热点、分析战略动态等，并最终提高视觉大数据领域在国家和国际学术的影响力，促进学科发展和产学研转化。

组织结构

主任：

王　亮 中科院自动化研究所

副主任：

薛建儒 西安交通大学

熊红凯 上海交通大学

耿　新 东南大学

秘书长：

赫　然 中科院自动化研究所

特别鸣谢

感谢CSIG咨询与评议工作委员会的大力支持。

CSIG咨询与评议工作委员会的主要工作包括就学科发展和学会发展组织撰写专家建议白皮书，组织科技成果鉴定。