小目标如何检测？西工大韩军伟等发布《大规模小目标检测》综述，20页pdf全面阐述小目标检测方法和自动驾驶与空中场景基准数据集

2022 年 7 月 30 日 专知

目标检测是计算机视觉中的经典任务之一。围绕小目标检测却是个更具挑战的任务。最近来自西工大最新《大规模小目标检测》对小目标检测进行了全面的综述，非常值得关注！

随着深度卷积神经网络的兴起，目标检测在过去几年取得了显著的进展。然而，这样的繁荣并不能掩盖小目标检测(SOD)不理想的情况，这是计算机视觉中最具挑战性的任务之一，因为小目标的内在结构导致视觉外观差和噪声表示。此外，大规模数据集对小目标检测方法的基准测试仍然是一个瓶颈。在本文中，我们首先对小目标检测进行了全面的综述。然后，为了促进SOD的发展，我们构建了两个大型小目标检测数据集SODA (Small Object Detection dAtasets)， SODA- d和SODA- a，分别针对Driving和Aerial场景。SODA-D包括24704个高质量流量图像和277596个9类实例。对于SODA-A，我们获取了2510张高分辨率航空图像，并在9个类上注释了800203个实例。正如我们所知，提出的数据集是首次尝试使用为多类别SOD定制的大量注释详尽的实例集合进行大规模基准测试。最后，我们评估了主流方法在SODA上的性能。我们期望发布的基准能够促进SOD的发展，并在该领域产生更多的突破。数据集和代码将很快在https://shaunyuan22.github.io/SODA上发布。

https://www.zhuanzhi.ai/paper/5e221f87497fb30800af3b26413080c0

目标检测是对图像/视频中感兴趣的目标进行分类和定位的一项重要任务。由于深度卷积神经网络(deep Convolutional Neural Networks, CNNs)拥有庞大的数据量和强大的学习能力，近年来目标检测取得了显著的成就[1]，[2]，[3]，[4]，[5]。小目标检测(Small Object Detection, SOD)作为通用目标检测的一个子领域，专注于对小尺寸目标的检测，在监控、无人机场景分析、行人检测、自动驾驶中的交通标志检测等各种场景中都具有重要的理论和现实意义。

虽然在一般目标检测方面已经取得了长足的进展，但SOD的研究进展相对缓慢。更具体地说，即使是领先的检测器，在检测小尺寸物体和正常大小物体方面仍然存在巨大的性能差距。以目前最先进的探测器之一DyHead[9]为例，在COCO[6]测试开发集上，DyHead获得的小尺寸物体的mean Average Precision (mAP)度量仅为28.3%，明显落后于中尺寸和大尺寸物体(50.3%和57.5%)。我们认为这种性能下降源于以下两个方面:1)从有限和扭曲的小物体信息中学习正确表示的内在困难;2)用于小目标检测的大规模数据集的稀缺。

小物体的特征表示质量不高的原因是它们的尺寸有限和一般的特征提取范式。具体而言，目前流行的特征提取器[10]，[11]，[12]通常对特征映射进行下采样，以减少空间冗余和学习高维特征，这不可避免地会减少微小物体的表示。而且小目标的特征在卷积处理后容易被背景等实例污染，使得网络难以捕捉到对后续任务至关重要的判别性信息。针对这一问题，研究人员提出了一系列的工作，可分为6类: 数据操作方法、尺度感知方法、特征融合方法、超分辨率方法、上下文建模方法和其他方法。我们将在综述部分详尽地讨论这些方法，并将提供深入的分析。

为了缓解数据的不足，一些针对小目标检测的数据集被提出，如SOD[28]和TinyPerson[7]。然而，这些小规模的数据集不能满足训练监督的基于CNN的算法的需求，这些算法对大量的标记数据“饥饿感”。此外，一些公共数据集包含相当数量的小对象，如WiderFace[8]、SeaPerson[29]和DOTA[30]等。不幸的是，这些数据集要么是为通常遵循相对确定的模式的单类别检测任务(人脸检测或行人检测)设计的，要么是其中微小的物体仅仅分布在几个类别中(DOTA数据集中的小型车辆)。总而言之，目前可用的数据集无法支持定制小目标检测的基于深度学习的模型训练，也无法作为评估多类SOD算法的公正基准。同时，PASCAL VOC[31]、ImageNet[32]、COCO[6]和DOTA[30]等大规模数据集的可访问性作为构建数据驱动的深度CNN模型的基础，对学术界和工业界都具有重要意义，它们都显著促进了相关领域的目标检测的发展。这启发我们思考: 我们是否可以建立一个大尺度的数据集，其中多个类别的对象的大小都非常有限，作为一个基准，用来验证小目标检测框架的设计，方便对SOD的进一步研究?

考虑到上述问题，我们构建了两个大型小目标检测数据集SODA, SODA- D和SODA- A，分别针对驾驶场景和空中场景。提出的SODAD建立在MVD[33]和我们的数据之上，其中前者是一个专门用于街道场景像素级理解的数据集，而后者主要由车载摄像头和手机捕获。利用24704张精心挑选的高质量驾驶场景图像，我们用水平边框标注了9个类别的277596个实例。SODA-A是专门用于空中场景下的小目标检测任务的基准测试，它在9个类中有800203个实例，具有面向矩形框注释。它包含了2510张从谷歌地球提取的高分辨率图像。

早期的目标检测通常集成手工特征[34]，[35]，[36]和机器学习方法[37]，[38]来识别感兴趣的对象。遵循这种复杂哲学的方法在小目标上表现得非常糟糕，因为它们的尺度变化能力有限。2012年之后，深度卷积网络[39]强大的学习能力给整个检测界带来了一丝希望，尤其是考虑到2010年之后目标检测已经进入了平台期。开创性的工作[40]打破了僵局，从那时起，越来越多的基于深度神经网络的检测方法被提出，此后，目标检测进入深度学习时代。由于深度网络对尺度变化的突出建模能力和强大的信息抽象能力，小目标检测得到了前所未有的改进。因此，本文重点综述了基于深度学习的SOD方法的主要进展。

综上所述，本文的主要贡献有三个方面:

1. 回顾了深度学习时代小目标检测的发展，系统地综述了该领域的最新进展，主要分为6类: 数据操作方法、尺度感知方法、特征融合方法、超分辨率方法、上下文建模方法和其他方法。除分类法外，还对这些方法的优缺点进行了深入分析。同时，我们回顾了十几组数据集，这些数据集跨越多个领域，涉及到小目标检测。

2. 发布了两个用于小目标检测的大型基准，第一个用于驾驶场景，另一个用于空中场景。提议的数据集是首次尝试为SOD定制大规模基准。我们希望这两个详尽注释的基准能够帮助研究人员开发和验证SOD的有效框架，并促进该领域的更多突破。

3.研究了几种具有代表性的目标检测方法在我们的数据集上的性能，并根据定量和定性的结果进行深入分析，为后续的小目标检测算法设计提供借鉴。

本文的其余部分组织如下。在第2节中，我们对小目标检测进行了全面的研究。在第3节给出了与小物体检测相关的几个公开可用基准的彻底综述。在第4节中，我们阐述了关于所提议的基准的收集和注释过程，以及数据特征。在第5节中，我们提供了几种具有代表性的基准测试方法的结果和分析。最后，对所做的工作进行了总结，并对小目标检测的未来研究方向进行了讨论。