VIP内容

近年来,由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,它将一种模态的数据作为查询去检索其它模态的数据。例如,用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广以及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大地缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文将从以下角度综述近些年来代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为三类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述信息呈现递增的情况,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了七类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含其中部分关键技术,其中代表性方法将被具体阐述。同时本文将对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,本文总结了部分代表性的跨模态检索数据库。最后本文讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。

成为VIP会员查看完整内容
0
35
Top