「深度图像检索: 2012到2020」大综述论文,荷兰莱登大学等学者详述深度学习图像检索进展

2021 年 1 月 30 日 专知

本文综述了近年来用于图像检索的深度学习方法的研究进展,并根据深度网络的参数更新,将其分为现成的深度图像检索模型和微调模型。



近年来,从社交媒体平台、医学图像和机器人等各个领域产生和分享了大量的视觉内容。大量的内容创造和分享带来了新的挑战。特别是,对相似内容的数据库进行搜索,即基于内容的图像检索(CBIR),是一个长期存在的研究领域,需要更有效和准确的方法来实现实时检索。人工智能在CBIR方面取得了很大进展,极大地促进了智能搜索的进程。在本综述论文中,我们组织和回顾了基于深度学习算法和技术的CBIR研究,包括来自近期论文的见解和技术。我们识别并呈现了该领域常用的数据库、基准和评估方法。我们收集共同的挑战,并提出有希望的未来方向。更具体地说,我们关注深度学习的图像检索,并根据深度网络结构的类型、深度特征、特征增强方法和网络微调策略来组织目前最先进的方法。我们的综述论文查考虑了各种各样的最新方法,旨在促进基于类别的信息检索领域的全部视角。


https://www.zhuanzhi.ai/paper/01b0e04eb5d1eeb53be30aa761b7cd12


基于内容的图像检索(CBIR)是通过分析大型图库中的可视内容来搜索语义匹配或相似图像的问题,给定描述用户需求的查询图像,如图1(a)所示。CBIR是计算机视觉和多媒体领域长期存在的研究课题[1,2]。随着当前图像和视频数据的指数级增长,迫切需要开发一种合适的信息系统来有效地管理这样的大型图像集合,图像搜索是与可视化集合交互的最不可或缺的技术之一。因此,CBIR的应用潜力几乎是无限的,如人员再识别[3]、遥感[4]、医学图像搜索[5]、在线市场购物推荐[6]等。


CBIR可以大致分为实例级检索和类别级检索,如图1(b)所示。在实例级图像检索中,给定一个特定对象或场景(如埃菲尔铁塔)的查询图像,目标是找到包含相同对象或场景的图像,这些图像可能在不同的视点、光照条件或受遮挡情况下捕获[7,8]。相反,对于类别级别的图像检索,目标是找到与查询相同类的图像(例如,狗、汽车等)。实例级检索更有挑战性,也更有前景,因为它满足许多应用程序的特定目标。请注意,我们将本文的重点限制在实例级的图像检索上,如果没有进一步指定,则认为“图像检索”和“实例检索”是等价的,可以互换使用。


要找到想要的图像,可能需要在数千张、数百万张甚至数十亿张图像中搜索。因此,高效搜索与准确搜索同等重要,并为此不断付出努力[7,8,9,10,11]。为了实现对海量图像的准确高效检索,紧凑而丰富的特征表示是CBIR的核心。


近二十年来,图像特征表示取得了显著进展,主要包括两个重要阶段: 特征工程和特征学习(特别是深度学习)。在特征工程时代(即前深度学习时代),该领域被具有里程碑意义的手工工程特征描述符所主导,如尺度不变特征变换(SIFT)[19]。特征学习阶段,即自2012年开始的深度学习时代,从人工神经网络开始,特别是ImageNet和深度卷积神经网络(DCNN) AlexNet[20]的突破。从那以后,深度学习技术影响了广泛的研究领域,因为DCNNs可以直接从数据中学习具有多层抽象的强大特征表示,绕过了传统特征工程中的多个步骤。深度学习技术引起了人们的极大关注,并在许多计算机视觉任务中取得了长足的突破,包括图像分类[20,21,22]、目标检测[23]、语义分割[24]、图像检索[10,13,14]。


[1, 2, 8]对传统图像检索方法进行了优秀的研究。相比之下,本文侧重于基于深度学习的方法,我们的工作与其他发表的综述[8,14,15,16]比较如表1所示。图像检索的深度学习包含了如图2所示的关键阶段,为了提高检索的准确性和效率,已经提出了针对一个或多个阶段的多种方法。在本综述中,我们对这些方法进行了全面的详细介绍,包括深度网络的结构、特征融合、特征增强方法和网络微调策略,动机是以下问题一直在推动这一领域的研究:


1)通过只使用现成的模型,深度特征如何胜过手工制作特征?

2)在跨训练数据集的领域迁移的情况下,我们如何适应现成的模型来维持甚至提高检索性能?

3)由于深度特征通常是高维的,我们如何有效地利用它们进行高效的图像检索,特别是针对大规模数据集?



在基于AlexNet[20]的图像检索实现非常成功之后,对检索任务的DCNNs进行了重要的探索,大致沿循了上述三个问题。也就是说,DCNN方法被分为(1)现成的模型和(2)经过微调的模型,如图3所示,并并行处理(3)有效的特征。DCNN是现成的还是微调的,取决于DCNN的参数是[25]更新还是基于参数固定的DCNN[25,26,27]。对于特征图,研究人员提出了R-MAC[28]、CroW[10]、SPoC[7]等编码和聚合方法。


最近在改进图像检索方面的进展可以分为网络级和特征级两类,图4给出了详细的分类。这项综述大致包括以下四个范畴:


(1) 网络架构的改进 (第2节)

利用堆叠线性滤波器(如卷积)和非线性激活函数(ReLU等),不同深度的深度网络获得不同层次的特征。层次越深的网络能够提供更强大的学习能力,从而提取高层次的抽象和语义感知特征[21,46]。并行地连接多尺度特性是可能的,例如GoogLeNet [47]中的Inception模块,我们将其称为“扩展”。


(2) 深度特征提取(3.1节)

FC层和卷积层的神经元具有不同的接受域,这提供了三种提取特征的方法:卷积层的局部特征[7,59],FC层的全局特征[32,60],以及两种特征的融合[61,62],融合方案包括层级和模型级方法。深度特征可以从整幅图像中提取,也可以从图像小块中提取,分别对应于单通道和多通道的前馈方案。


(3) 深度特征增强


通过特征增强来提高深度特征的判别能力。直接使用深度网络[17]同时训练聚合特征;另外,特征嵌入方法包括BoW[63]、VLAD[64]和FV[65]将局部特征嵌入到全局特征中。这些方法分别使用深度网络(基于codebook)或联合(无codebook)进行训练。另外,采用哈希方法[18]将实值特征编码为二进制码,提高检索效率。特征增强策略会显著影响图像检索的效率。


(4) 学习表示的网络微调(第4节)

在源数据集上预先训练的用于图像分类的深度网络被转移到新的数据集上进行检索任务。然而,检索性能受到数据集之间的域转移的影响。因此,有必要对深度网络进行微调到特定的领域[34,56,66],这可以通过有监督的微调方法来实现。然而,在大多数情况下,图像标记或标注是耗时和困难的,因此有必要开发无监督的方法进行网络微调。




本文综述了近年来用于图像检索的深度学习方法的研究进展,并根据深度网络的参数更新,将其分为现成的深度图像检索模型和微调模型。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DIR” 可以获取「深度图像检索: 2012到2020」大综述论文,荷兰莱登大学等学者详述深度学习图像检索进展专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
69+阅读 · 2021年3月29日
电子科大最新《深度半监督学习》综述论文,24页pdf
专知会员服务
89+阅读 · 2021年3月6日
「深度图像检索: 2012到2020」大综述论文,21页pdf
专知会员服务
41+阅读 · 2021年1月30日
深度学习图像检索(CBIR): 十年之大综述
专知会员服务
46+阅读 · 2020年12月5日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
179+阅读 · 2020年9月7日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
专知会员服务
199+阅读 · 2020年3月6日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
干货 | 目标识别算法的进展
计算机视觉战队
17+阅读 · 2017年6月29日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
19+阅读 · 2021年1月14日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
专知会员服务
69+阅读 · 2021年3月29日
电子科大最新《深度半监督学习》综述论文,24页pdf
专知会员服务
89+阅读 · 2021年3月6日
「深度图像检索: 2012到2020」大综述论文,21页pdf
专知会员服务
41+阅读 · 2021年1月30日
深度学习图像检索(CBIR): 十年之大综述
专知会员服务
46+阅读 · 2020年12月5日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
179+阅读 · 2020年9月7日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
专知会员服务
199+阅读 · 2020年3月6日
相关资讯
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
干货 | 目标识别算法的进展
计算机视觉战队
17+阅读 · 2017年6月29日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
相关论文
Arxiv
16+阅读 · 2021年1月27日
Arxiv
19+阅读 · 2021年1月14日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
9+阅读 · 2018年1月4日
Top
微信扫码咨询专知VIP会员