南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

2021 年 11 月 21 日 专知

【导读】细粒度图像分析是计算机视觉关注的焦点问题之一。南京理工大学魏秀参等研究者发布了最新《深度学习细粒度图像分析》综述论文，对细粒度图像识别和细粒度图像检索来重新定义和扩展FGIA领域。

摘要

细粒度图像分析(FGIA)是计算机视觉和模式识别中一个长期存在的基本问题，支撑着一系列现实世界的应用。FGIA的任务是分析从属类别的视觉对象，例如鸟类的种类或汽车的模型。细粒度图像分析中固有的类间小变化和类内大变化使其成为一个具有挑战性的问题。利用深度学习的进步，近年来我们见证了基于深度学习的FGIA的显著进步。在本文中，我们对这些进展进行了系统的综述，试图通过整合两个基础的细粒度研究领域——细粒度图像识别和细粒度图像检索来重新定义和扩展FGIA领域。此外，我们还回顾了FGIA的其他关键问题，如公开可用的基准数据集和相关的领域特定应用。最后，提出了几个需要社会进一步探索的研究方向和有待解决的问题。

Fine-Grained Image Analysis with Deep Learning: A Survey

Authors: Xiu-Shen Wei, Yi-Zhe Song, Oisin Mac Aodha, Jianxin Wu, Yuxin Peng, Jinhui Tang, Jian Yang, Serge Belongie

https://www.zhuanzhi.ai/paper/1624505210a790608dd142f9de841a0d

引言

人类的视觉系统天生具有细粒度图像推理的能力——我们不仅能够区分狗和鸟，而且还能区分西伯利亚哈斯基犬和阿拉斯加雪橇犬(见图1)。细粒度图像分析(FGIA)被引入学术界也是出于同样的目的，即，以精细的方式教机器“看”。FGIA方法在工业和研究领域都有广泛的应用，例如生物多样性自动监测[1]，[2]，[3]，智能零售[4]，[5]，[6]和智能交通[7]，[8]，并在保护[9]和商业[10]等领域产生了积极的影响。

图1 细粒度图像分析vs.一般图像分析(以视觉分类为例)。

计算机视觉中FGIA的目标是检索和识别属于超类别(即元类别或基本类别)的多个从属类别的图像，如不同种类的动物/植物、不同型号的汽车、不同种类的零售产品等。因此，关键的挑战在于理解细粒度的视觉差异，这些差异足以区分总体外观高度相似但细粒度特征不同的对象。自成立近20年以来，[11]，[12]，[13]已经取得了巨大的进步。特别是深度学习[14]已经成为一种强大的判别特征学习方法，并在FGIA领域取得了显著的突破。基于深度学习的FGIA大大推进了这些方法在[5]、[7]、[8]、[9]多种应用场景中的实际部署。

近年来，计算机视觉和机器学习研究领域都对FGIA产生了浓厚的兴趣。 粗略统计表明，在每一个高级视觉和机器学习会议上，平均每年有10篇关于基于FGIA的深度学习的会议论文发表。还有一些特别的问题要解决FGIA[15]，[16]，[17]，[18]，[19]。此外，FGIA的一些有影响力的比赛经常在网络平台上举行。代表包括自然主义者竞赛(大量自然物种)[20]，自然保护协会渔业监测(鱼类物种分类)[21]，座头鲸识别(鲸鱼身份分类)[22]等。每次比赛都吸引了来自世界各地的数百名参与者，有些甚至超过了2000个团队。在国际顶级会议上，如[23]，[24]，也有针对FGIA主题的专门教程和研讨会。

基于深度学习的细粒度图像分析(FGIA)研究概况及未来发展方向。

尽管研究兴趣如此突出，但关于深度学习的FGIA的研究仍然是碎片化的。因此，本次调研的目的是 (i)全面介绍FGIA的最新成果，特别是深度学习技术带来的成果，更重要的是(ii)通过整合FGIA不同方面的研究，提出一个统一的研究前沿。我们的方法与现有的综述[25]，[26]有很大的不同，这些综述只关注细粒度的识别/分类问题，我们认为这只是FGIA更大研究的一部分。特别是，我们试图重新定义和拓宽细粒度图像分析领域，突出细粒度识别和细粒度图像检索任务之间的协同作用，这也是FGIA的一个组成部分。我们的综述以独特的基于深度学习的视角，以广泛、系统、全面的方式回顾了FGIA的最新进展。我们的主要贡献总结如下:

我们拓宽了FGIA的领域，提供了一个扎实的景观，促进了细粒度图像分析中相关问题之间的协同作用。
我们提供了基于深度学习的FGIA技术的全面回顾，包括普遍接受的问题定义、基准数据集、FGIA方法的不同家族，以及涉及特定领域的FGIA应用。特别是，我们对这些方法进行了分类组织(参见图2)，以便为读者提供该领域的最新技术的快速快照。
我们在几个公开可用的数据集上巩固现有方法的性能，并为未来的研究提供讨论和见解。
最后，我们讨论现有的挑战和未决的问题，并确定新的趋势和未来的方向，为社区解决这些问题提供一个可行的路线图。
最后，为了持续跟踪这一快速发展领域的最新发展，我们提供了一个附带的网页，根据我们基于问题的分类法: http://www.weixiushen.com/project/Awesome FGIA/Awesome FGIA.html，对解决FGIA问题的论文进行了分类。

细粒度图像分析

细粒度图像分析(Fine-grained image analysis, FGIA)专注于处理同一元类别畴中属于多个从属类别的物体(例如不同种类的鸟类或不同型号的汽车)，通常涉及两个中心任务:细粒度图像识别和细粒度图像检索。如图3所示，细粒度分析存在于基础级类别分析(即通用图像分析)和实例级分析(如个体识别)之间的连续体中。

图3 一个细粒度图像分析的例子，它位于基础级类别分析(即，通用图像分析)和实例级分析(如，汽车识别)之间的连续体。

细粒度图像识别是近十年来FGIA最活跃的研究领域。 细粒度识别的目的是区分属于同一基本类别的众多视觉上相似的从属类别，如动物物种[2]、汽车[43]、水果[46]、飞机模型[44]等。它已被频繁地应用于现实世界的任务，如生态系统保护(识别生物物种)[9]，智能零售系统[5]，[10]等。由于识别区域定位和细粒度特征学习的挑战，识别细粒度类别是困难的。研究人员试图从不同的角度来应对这些挑战。在本节中，我们将回顾自深度学习出现以来主要的细粒度识别方法。

总的来说，现有的细粒度识别方法可以组织为以下三种主要范式:

通过定位分类子网络进行识别;
端到端特征编码识别;
对外部信息的认可。

图4 基于深度学习的有代表性的细粒度识别方法，并根据不同的学习方法进行了分类

比较两种学习范式(参见5.1节和5.2节)在细粒度基准数据集上的细粒度识别结果，即Birds (CUB200-2011[13])、Dogs (Stanford Dogs[42])、Cars (Stanford Cars[43])和Aircraft (FGVC Aircraft[44])。请注意，“火车anno。”和“测试无名氏”。“指分别在训练和测试阶段使用的受监督信号。”符号“-”表示结果不可用。

未来方向与结论

深度学习的进步使得细粒度图像分析(FGIA)取得了重大进展。尽管取得了成功，但仍有许多问题没有解决。因此，在本节中，我们旨在明确指出这些问题，并突出一些未决问题，以推动该领域的未来发展。

细粒度定义
下一代细粒度数据集
3D细粒度任务的应用
鲁棒细粒度表示
可解释细粒度学习
细粒度少样本学习
细粒度哈希
自动细粒度模型
现实场景细粒度分析

本文综述了基于深度学习的细粒度图像分析(FGIA)的最新进展。 具体来说，我们提倡通过整合细粒度识别和细粒度检索的工作，扩大FGIA的定义。我们列举了现有研究的空白，指出了一系列新兴的课题，突出了未来重要的研究方向，并说明了FGIA的问题仍远未解决。然而，考虑到在过去十年中性能的显著改善，我们对未来的进展保持乐观，因为我们正在朝着更现实和更有影响力的应用迈进。

参考文献：

[1] G. Van Horn, S. Branson, R. Farrell, S. Haber, J. Barry, P. Ipeirotis, P. Perona, and S. Belongie, “Building a bird recognition app and large scale dataset with citizen scientists: The fine print in fine-grained dataset collection,” in CVPR, 2015, pp. 595–604.

[2] G. Van Horn, O. Mac Aodha, Y. Song, Y. Cui, C. Sun, A. Shepard, H. Adam, P. Perona, and S. Belongie, “The iNaturalist species classification and detection dataset,” in CVPR, 2017, pp. 8769–8778.

[3] G. Van Horn, E. Cole, S. Beery, K. Wilber, S. Belongie, and O. Mac Aodha, “Benchmarking representation learning for natural world image collections,” in CVPR, 2021

专知便捷查看