最新《Transformers 2D目标检测》综述,值得关注!
ransformers在自然语言处理(NLP)中的卓越性能激发了研究者们探索其在计算机视觉任务中的应用。像其他计算机视觉任务一样,DEtection TRansformer(DETR)通过将检测视为一种集合预测问题,而无需生成建议和进行后处理步骤,将transformers引入到目标检测任务中。它是一种用于目标检测的最先进(SOTA)方法,特别是在图像中的目标数量相对较少的情况下。尽管DETR取得了成功,但它在训练收敛速度上存在问题,并且在小目标上的性能有所下降。因此,提出了许多改进方案来解决这些问题,从而对DETR进行了大量的改进。自2020年以来,基于transformer的目标检测引起了越来越多的关注,并展示了令人印象深刻的性能。尽管已经进行了大量关于视觉领域中transformers的调查,但是关于使用transformers进行2D目标检测的改进的回顾仍然缺失。本文详细回顾了关于DETR最近发展的二十一篇论文。我们从Transformers的基本模块开始,例如自注意力、目标查询和输入特性编码。然后,我们覆盖了DETR的最新进展,包括骨干修改、查询设计和注意力精炼。我们还在性能和网络设计方面比较了所有的检测transformers。我们希望这项研究将增加研究者对解决将transformers应用于目标检测领域的现有挑战的兴趣。研究人员可以在此网页上跟踪检测transformers的新进展:https://github.com/mindgarage-shan/trans_object_detection_survey。
1. 引言
目标检测是计算机视觉中的基础任务之一,涉及在图像中定位和分类对象 [1], [2], [3], [4]。多年来,卷积神经网络(CNNs)一直是目标检测模型的主要骨干[1]。然而,Transformers在自然语言处理(NLP)中的最近成功使研究人员开始探索它们在计算机视觉中的潜力[5]。已经证明,Transformer架构[6]在捕获序列数据中的长距离依赖性方面非常有效[6],这使其成为目标检测任务的有吸引力的候选者。2020年,Carion等人提出了一种名为DEtection TRansformer (DETR)的新型目标检测框架[7],它用使用transformer编码器-解码器网络的完全端到端可训练的架构替换了传统的基于区域建议的方法。DETR网络显示出了令人充满希望的结果,超过了传统的基于CNN的目标检测器[1], [2], [3], [4],同时也消除了对手工制作组件(如区域提议网络)和后处理步骤(如非最大抑制(NMS))[8]的需求。
自DETR推出以来,已经提出了一些修改和改进来克服其限制,例如训练收敛慢和对小目标的性能下降。图1显示了检测变换器(DETR)及其改进性能和训练收敛的文献概述。Deformable-DETR [9] 修改了注意力模块来处理图像特征图,认为注意力机制是训练收敛慢的主要原因。UP-DETR [10] 提出了一些修改来预训练DETR,类似于在自然语言处理中预训练Transformers。EfficientDETR [11] 基于原始的DETR和Deformable-DETR,检查了随机初始化的目标概率,包括参考点和目标查询,这是多次训练迭代的原因之一。SMCA-DETR [12] 引入了一个空间调制的共注意模块,替换了DETR中现有的共注意机制,以克服DETR的训练收敛慢的问题。TSPDETR [13] 处理交叉注意力和二部匹配的不稳定性,以克服DETR的训练收敛慢的问题。Conditional-DETR [14] 提出了一种条件交叉注意力机制来解决DETR的训练收敛问题。WB-DETR [15] 将CNN骨干用于特征提取视为额外的组件,并提出了一个没有骨干的Transformer编码器-解码器网络。PnP-DETR [16] 提出了一个PnP采样模块,以减少空间冗余并使Transformer网络计算上更有效。Dynamic-DETR [17] 在编码器-解码器网络中引入了动态注意力。YOLOS-DETR [18] 通过使用最少的输入空间设计信息,展示了Transformer从图像识别到序列检测的可转移性和多功能性,并改进了性能。Anchor-DETR [19] 提出了作为锚点的目标查询,这在基于CNN的目标检测器中得到了广泛的应用。Sparse-DETR [20] 通过使用可学习的交叉注意力图对编码器令牌进行过滤,降低了计算成本。D2ETR [21] 使用新的跨尺度注意力模块在解码器中使用来自骨干网络的精细融合特征图。FP-DETR [22] 重新定义了用于检测transformers的预训练和微调阶段。CFDETR [23] 通过利用局部信息来优化预测的位置,因为不正确的边界框位置会降低对小目标的性能。DN-DETR [24] 使用带有噪声的目标查询作为解码器的额外输入,以减少DETR中二部匹配机制的不稳定性,这是导致训练收敛慢的问题。AdaMixer [25] 认为编码器是骨干网络和解码器之间的额外网络,其设计复杂性限制了性能并减慢了训练收敛的速度,并提出了一个3D采样过程和对解码器的少量修改。REGO-DETR [26] 提出了一种基于RoI的检测优化方法,以改进检测transformer中的注意力机制。DINO [27] 考虑使用带有正面和负面噪声的目标查询,以加快训练收敛的速度,并改进对小目标的性能。 由于基于Transformer的检测方法的快速进步,跟踪新的进步变得越来越具有挑战性。因此,对正在进行的进展进行回顾是必要的,并且对该领域的研究人员将是有帮助的。
本文提供了2D检测Transformers最近进展的详细概述。表1显示了改进检测Transformer(DETR)以提高性能和训练收敛的修改概述。我们的贡献
从架构角度对基于Transformer的检测方法进行详细回顾**。我们根据骨干网络的修改、预训练水平、注意力机制、查询设计等方面,对DEtection TRansformer(DETR)的改进进行分类和总结。我们提出的分析旨在帮助研究人员更深入地理解检测Transformers的关键组件在性能指标方面的含义。
对检测Transformers的性能评估。我们使用流行的基准测试MS COCO [30] 来评估检测Transformers的改进。我们也强调了这些方法的优点和局限性。3) 对改进版本的检测Transformers的准确性和计算复杂性的分析。我们对最先进的基于Transformer的检测方法进行评价性比较,关注其在注意力机制、骨干网络修改、查询设计改进等方面。4) 对检测Transformers的关键构建模块的概述,以进一步提高性能和未来的发展方向。我们检查了各种关键的架构设计模块对网络性能和训练收敛的影响,并为未来的研究提供可能的建议。
2 目标检测和视觉中的Transformers
2.1 目标检测
本节解释了目标检测的关键概念以及之前使用过的目标检测器。关于目标检测概念的更详细分析可以在[35],[63]中找到。目标检测任务通过在每个目标周围提供一个边界框和其类别,来在图像中定位和识别目标。这些检测器通常在像PASCAL VOC [64]或MS COCO [30]这样的数据集上进行训练。骨干网络将输入图像的特征提取为特征图[65]。通常,像ResNet50 [66]这样的骨干网络先在ImageNet [67]上进行预训练,然后在下游任务上进行微调[68],[69],[70],[71]。此外,许多工作也使用了视觉transformers [72],[73],[74]作为骨干网络。单阶段目标检测器[3],[4],[75],[76],[77],[78],[79],[80],[81],[82],[83]只使用一个网络,速度更快,但性能低于两阶段网络。两阶段目标检测器[1],[2],[8],[65],[84],[85],[86],[87],[88],[89]包含两个网络,提供最终的边界框和类标签。轻量级检测器:轻量级检测器是一种设计为在计算上高效且相比标准目标检测模型需要较低计算资源的目标检测模型。这些是实时目标检测器,可以在小设备上使用。这些网络包括[90],[91],[92],[93],[94],[95],[96],[97],[98]。3D目标检测:3D目标检测的主要目的是使用3D边界框识别感兴趣的目标,并给出一个类标签。3D方法分为三个类别,即基于图像的[99],[100],[101],[102],[103],[104],[105],基于点云的[106],[107],[108],[109],[110],[111],[112],[113],[114]和基于多模态融合的[115],[116],[117],[118],[119]。
2.2 用于分割的Transformer
自注意力机制可以用于分割任务[120],[121],[122],[123],[124],它提供像素级[125]预测结果。全景分割[126]通过提供每像素类别和实例标签,共同解决语义和实例分割任务。Wang等人[127]提出了针对三个基准[128],[129],[130]的全景分割任务的位置敏感轴向注意力。以上的分割方法都有基于CNN的网络中的自注意力。最近,提出了包含编码器-解码器模块的分割转换器[121],[123]。
2.3 用于场景和图像生成的Transformers
以前的文本到图像生成方法[131],[132],[133],[134]基于GANs[135]。Ramesh等人[136]提出了一个基于transformer的模型,用于从提供的文本细节生成高质量的图像。Transformer网络也被应用于图像合成[137],[138],[139],[140],[141],这对于学习下游任务的无监督和生成模型很重要。使用无监督训练过程的特征学习[138]在两个数据集[142],[143]上达到了最先进的性能,而SimCLR[144]在[145]上提供了相当的性能。iGPT图像生成网络[138]不包括类似于语言建模任务的预训练过程。然而,无监督的基于CNN的网络[146],[147],[148]考虑了先验知识作为架构布局,注意力机制和正则化。带有基于CNN的骨干的生成对抗网络(GAN)[135]对于图像合成[149],[150],[151]具有吸引力。TransGAN[140]是一个强大的GAN网络,其中生成器和鉴别器包含transformer模块。
2.4 用于低级视觉的Transformers
低级视觉是分析图像以识别其基本组件并创建中间表示以供进一步处理和高级任务的过程。在观察到注意力网络在高级视觉任务中的显著性能后,已经引入了许多针对低级视觉问题的基于注意力的方法,如[152],[153],[154],[155],[156]。
3. 检测TRANSFORMERS
本节简要解释了DEtection TRansformer (DETR)及其改进,如图2所示。
DEtection TRansformer (DETR) [7] 的架构比如Faster R-CNN [170]这样的基于CNN的检测器更简单,因为它省去了生成锚点的过程和后处理步骤,如非极大值抑制(NMS),并提供了一个优化的检测框架。DETR网络有三个主要模块:一个带有位置编码的主干网络,一个编码器和一个带有注意力机制的解码器网络。从主干网络中提取的特征作为一个单一的向量,和它们的位置编码[171],[172]一起作为输入向量送入编码器网络。这里,关键字,查询和值矩阵上执行自我注意力,这些结果输入到多头注意力和前馈网络中,以找到输入向量的注意力概率。DETR解码器并行处理目标查询和编码器输出。通过并行解码N个目标查询,它计算出预测,并使用一种二部匹配算法来标记真实和预测的目标。
Deformable-DETR UP-DETR Efficient-DETR SMCA-DETR TSP-DETR Conditional-DETR WB-DETRP nP-DETR Dynamic-DETR YOLOS-DETR Anchor-DETR Sparse-DETRD 2ETRFP-DETR DAB-DETR CF-DETR DN-DETR AdaMixer REGO-DETR DINO
虽然检测Transformers在各种对象检测基准测试上已经显示出了有希望的结果,但是仍然存在一些开放性的挑战和改进的未来方向。表4提供了所有提出的DETR改进版本的优点和限制。以下是DETR改进的一些开放性挑战和未来方向:
扩大到大数据集:DINO,DETR的改进版本,在小型和中型数据集上显示出了令人印象深刻的结果,但是当扩大到大型数据集时,其性能下降。未来的工作应该探索如何将检测Transformers扩大到大型数据集,同时保持其性能。
提高样本效率:检测Transformers需要大量的训练数据来学习有效的表示。未来的工作应该研究如何提高样本效率,比如结合领域特定的知识或者使用主动学习技术。
处理长尾分布:检测Transformers在处理长尾分布时有困难,这种分布中某些类别的实例比其他类别少得多。未来的工作应该探索如何解决这种类别不平衡,比如使用重新采样技术。
结合局部和全局信息:DETR关注全局信息,而DINO关注从图像中学习局部表示。然而,DETR及其改进版本并没有显式地模型化图像不同部分的局部和全局信息。未来的工作应该探索将这两种信息结合到模型中。 总的来说,检测Transformers还有很大的改进空间,解决这些开放性的挑战和未来的方向可能会带来更加令人印象深刻的结果。
4. 结论
检测Transformer已经提供了高效且精确的目标检测网络,并深入了解了深度神经网络的运行方式。这篇综述给出了关于检测Transformer的详细概述。特别是,它关注了在DETR中最新的进步,以提高性能和训练收敛性。检测Transformer的编码器-解码器网络中的注意力模块被修改以改进训练收敛性,并且更新作为解码器输入的目标查询以改善对小目标的性能。我们提供了检测Transformer的最新改进,包括主干修改、查询设计和注意力细化。我们还比较了在性能和架构设计方面检测Transformer的优点和限制。通过关注目标检测任务,这篇综述对DETR的最新进展提供了独特的视角。我们希望这项研究能提高研究者在解决现有挑战方面的兴趣,以便在目标检测领域应用Transformer模型。