深度学习图像检索(CBIR): 十年之大综述

2020 年 12 月 5 日 专知

深度学习在图像检索的综述应用，值的关注！

基于内容的图像检索旨在针对查询图像从大规模数据集中找到相似的图像。通常利用查询图像的代表性特征与数据集图像之间的相似性对检索图像进行排序。在早期，各种手工设计的特征描述符被研究，基于视觉线索如颜色、纹理、形状等代表图像。然而，深度学习在过去的十年里已经成为了手工设计功能工程的替代选择。它自动从数据中学习特征。本文综述了近十年来基于深度学习的图像检索技术的发展。还从不同的角度对现有的最先进的方法进行分类，以便更好地了解进展情况。本综述所使用的分类方法包括不同监督、不同的网络、不同的描述符类型和不同的检索类型。性能分析也使用最先进的方法进行。提出的见解也有利于研究人员观察进展和做出最佳选择。本文的研究将有助于利用深度学习进行图像检索的进一步研究。

论文：

A Decade Survey of Content Based Image Retrieval using Deep Learning

https://www.zhuanzhi.ai/paper/11f7f2ea558530e3c96c5d71ab1fd477

概述

图像检索是一个被广泛研究的图像匹配问题，即从数据库w.r.t中检索相似的图像。基本上，利用查询图像与数据库图像之间的相似度对数据库图像按相似度[3]的降序进行排序。因此，任何图像检索方法的性能都依赖于图像之间的相似度计算。理想情况下，两幅图像间相似度评分的计算方法应具有鉴别性、鲁棒性和有效性。计算两幅图像之间相似度最简单的方法是求两幅图像中对应像素的绝对差的和，即L1距离。这种方法也称为模板匹配。然而，该方法对图像几何和光度变化(如平移、旋转、视点、光照等)的鲁棒性不强。利用Corel数据集[4]中同一类别的两幅图片和对应的一个窗口的代表性强度值，如图1所示。该方法的另一个问题是，由于图像的高维性，导致查找查询图像与数据库图像之间的相似性需要很高的计算量，因此效率不高。

1.1 基于手工描述符的图像检索

为了使检索对几何和光度变化具有鲁棒性，基于图像内容计算图像之间的相似性。基本上，图像的颜色、纹理、形状、梯度等内容(即视觉外观)都以特征描述符[6]的形式表示。对应图像特征向量之间的相似性被视为图像之间的相似性。因此，任何基于内容的图像检索(CBIR)方法的性能在很大程度上依赖于图像的特征描述符表示。任何特征描述符表示方法都希望具有识别能力、鲁棒性和低维数。图2说明了描述符函数在鲁棒性方面的效果。旋转和比例混合描述符(RSHD)函数[7]用于显示从corell数据集[4]获取的图像与其旋转后的版本之间的旋转不变性。从图2中可以看出，基于原始强度值的比较是无效的，但是基于描述符的比较是有效的，因为描述符函数能够从图像中捕获相关信息。在基于内容的图像检索中，研究了不同的特征描述符表示方法来计算两幅图像之间的相似度。特征描述符表示利用了基于需要[18]1、[18]0、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]手动选择的图像的视觉线索。这些方法也被称为手工设计或手工工程的特性描述。此外，这些方法通常是无监督的，因为它们不需要数据来设计特征表示方法。各种研究也不时地进行，以展示基于内容的图像检索的进展，包括2000年的[2]，2002年的[20]，2004年的[21]，2006年的[22]，2007年的[23]，2008年的[24]，2014年的[25]，2017年的[26]。图像检索的手工特征是一个非常活跃的研究领域。然而，由于人工设计的特征不能准确地表征图像特征，其性能受到了限制。

1.2 基于距离度量学习的图像检索

距离度量学习也被广泛地用于特征向量表示[27]。在[28]图像检索方面也有较好的研究。基于深度度量学习的图像检索方法有:上下文约束距离度量学习[29]、基于核的距离度量学习[30]、保持视觉的距离度量学习[31]、基于排序的距离度量学习[32]、半监督距离度量学习[33]等。一般来说，基于深度度量学习的方法与手工制作特征的方法相比，显示了有前途的检索性能。然而，现有的基于深度度量学习的图像检索方法大多依赖于线性距离函数，这限制了其识别能力和鲁棒性，不能代表非线性数据。此外，该算法还不能有效地处理多通道检索问题。

1.3 基于深度学习的图像检索

在十年间，深度学习[34]、[35]出现后，我们观察到特征表示从手工工程到基于学习的转变。这种转变如图3所示，基于特征学习的卷积神经网络取代了传统手工特征表示的最先进的管道。深度学习是一种层次特征表示技术，从数据中学习对数据集和应用[36]非常重要的抽象特征。根据所要处理的数据类型，产生了不同的架构，如:1维数据[37]、[38]、[39]的人工神经网络(ANN)/多层感知器(multi - layer Perceptron, MLP)，图像数据[40]、[41]、[42]的卷积神经网络(Convolutional Neural Networks, CNN)，时序数据[43]、[44]、[45]的Reurrent神经网络(RNN)。就[34]的鉴别能力和鲁棒性而言，现有的CNN特性在对象识别和检索任务中表现出了非常有前途的性能。在这十年里，利用深度学习的力量进行基于内容的图像检索[46]，[47]，[48]，[49]取得了巨大的进展。因此，本综述主要关注基于内容的图像检索的最先进的基于深度学习的模型和特征的进展。图4描述了用于图像检索的最新深度学习方法的分类。