基于深度学习的物体姿态估计综述

物体姿态估计是计算机视觉领域的一个基本问题，广泛应用于增强现实和机器人技术中。在过去的十年中，由于其出色的准确性和鲁棒性，基于深度学习的模型已逐渐取代依赖于工程化点对特征的传统算法。然而，现代方法中仍存在几个挑战，包括对标记训练数据的依赖、模型的紧凑性、在挑战条件下的鲁棒性，以及对新颖未见物体的泛化能力。近期关于这一领域不同方面的进展、突出挑战和未来有希望的方向的综述尚缺失。为填补这一空白，我们讨论了基于深度学习的物体姿态估计的最新进展，涵盖问题的所有三种表述，即实例级、类别级和未见物体姿态估计。我们的综述还涵盖了多种输入数据模态、输出姿态的自由度、物体属性和下游任务，为读者提供了该领域的全面理解。此外，它讨论了不同领域的训练范式、推理模式、应用领域、评估指标和基准数据集，以及报告了当前最先进方法在这些基准上的表现，从而帮助读者选择最适合其应用的方法。最后，该综述识别了关键挑战，回顾了当前趋势及其优缺点，并确定了未来研究的有希望的方向。我们也持续追踪Awesome-Object-Pose-Estimation上的最新作品。

物体姿态估计是计算机视觉中的一个基本问题，目的是估计给定图像中物体相对于拍摄该图像的相机的姿态。物体姿态估计对于增强现实[1]、[2]、[3]、机器人操控[4]、[5]、手-物体互动[6]、[7]等领域至关重要。根据应用需求，物体姿态可估计到不同的自由度（DoF），例如只包括3D旋转的3DoF，还包括3D平移的6DoF，或者除了3D旋转和3D平移外还包括估计物体的3D大小的9DoF。在深度学习出现之前，许多基于手工制作特征的方法如SIFT [8]、FPFH [9]、VFH [10]和点对特征（PPF）[11]、[12]、[13]、[14]被设计用于物体姿态估计。然而，当面对复杂场景时，这些方法在准确性和鲁棒性上表现不足[15]、[16]。这些传统方法现已被基于数据的深度学习方法所取代，后者利用深度神经网络的力量从数据中学习高维特征表示，从而提高准确性和鲁棒性，以应对复杂环境。

基于深度学习的物体姿态估计方法可以根据问题表述分为实例级、类别级和未见物体方法。图1显示了这三种方法的比较。早期方法主要是实例级[16]、[17]、[18]、[19]、[20]，训练用于估计特定物体实例的姿态。实例级方法可以进一步分为基于对应关系、基于模板、基于投票和基于回归的方法。由于实例级方法是在特定实例数据上训练的，它们可以为给定的物体实例精确估计姿态。然而，它们的泛化性能较差，因为它们仅适用于训练它们的实例。此外，许多实例级方法[18]、[21]需要物体的CAD模型。鉴于这些限制，Wang等[22]提出了首个类别级物体姿态和大小估计方法。它们可以泛化到类内未见物体，无需重新训练和在推理期间使用CAD模型。随后的类别级方法[23]、[24]、[25]、[26]、[27]可以分为基于形状先验和无形状先验的方法。虽然这些类别级方法提高了类别内的泛化能力，但仍需要为每个物体类别收集和标记大量训练数据。此外，这些方法无法泛化到未见的物体类别。

最近，一些未见物体姿态估计方法[1]、[3]、[28]、[29]、[30]已经被提出，可以进一步分为基于CAD模型和基于手动参考视图的方法。这些方法进一步增强了物体姿态估计的泛化性，即它们可以泛化到未见的物体而无需重新训练。然而，它们仍然需要获取物体的CAD模型或标注物体的几张参考图像。尽管在物体姿态估计领域取得了显著进展，但当前方法中仍存在几个挑战，例如依赖标记训练数据、难以泛化到新颖未见物体、模型紧凑性以及在挑战性场景中的鲁棒性。为了使读者能迅速掌握物体姿态估计的当前最先进（SOTA）水平并促进这一方向的进一步研究，提供对所有相关问题表述的全面审查至关重要。对现有学术文献的仔细审查显示，对物体姿态估计各种问题表述的综合性审查存在显著差距。当前流行的审查[31]、[32]、[33]、[34]、[35]往往表现出狭窄的焦点，要么局限于特定输入模态[32]、[33]，要么限于特定应用领域[34]、[35]。此外，这些审查主要审查实例级和类别级方法，因此忽视了该领域最实际的问题表述——未见物体姿态估计的探索。这阻碍了读者对该领域的全面了解。

例如，Fan等[33]提供了有关基于RGB图像的物体姿态估计的宝贵见解。然而，他们的焦点限于单一模态，阻碍了读者对不同输入模态的方法的全面了解。相反，Du等[34]仅检查了机器人抓取任务背景下的物体姿态估计，这限制了读者仅从单一特定应用的角度理解物体姿态估计。

为了解决上述问题，我们提出了一份全面的关于基于深度学习方法的物体姿态估计的最新进展的综述。我们的综述涵盖了所有问题表述，包括实例级、类别级和未见物体姿态估计，旨在为读者提供该领域的全面理解。此外，我们还讨论了不同领域的训练范式、应用领域、评估指标和基准数据集，以及报告了现有最先进方法在这些基准上的表现，帮助读者选择最适合其应用的方法。此外，我们还强调了流行趋势，并讨论了它们的优点和缺点，同时确定了仍存在的关键挑战和未来研究的有希望方向。本综述的分类在图2中显示。

我们的主要贡献和亮点如下： • 我们提出了一份关于基于深度学习的物体姿态估计方法的全面综述。这是第一份涵盖该领域所有三种问题表述的综述，包括实例级、类别级和未见物体姿态估计。 • 我们的综述涵盖了流行的输入数据模态（RGB图像、深度图像、RGBD图像）、输出姿态的不同自由度（3DoF、6DoF、9DoF）、用于姿态估计和跟踪任务的物体属性（刚性、关节）。涵盖所有这些方面对于提供给读者一个完整的图景至关重要，这是现有综述所忽视的一个方面，它们仅涵盖了其中的几个方面。 • 我们讨论了不同领域的训练范式、推理模式、应用领域、评估指标和基准数据集，以及报告现有最先进方法在这些基准上的表现，以帮助读者选择最适合部署在其应用中的方法。 • 我们突出了过去十年中物体姿态估计技术的演变中的流行趋势，并讨论了它们的优点和缺点。我们还确定了在物体姿态估计中仍存在的关键挑战，以及指导未来努力的有希望研究方向。 本文的其余部分安排如下。第2节回顾了用于评估三类物体姿态估计方法的数据集和指标。然后我们在第3节回顾实例级方法，在第4节回顾类别级方法，在第5节回顾未见物体姿态估计方法。在上述三个部分中，我们还讨论了与特定类别中代表性方法相关的训练范式、推理模式、挑战和流行趋势。接下来，第6节回顾了物体姿态估计的常见应用。最后，第7节总结了本文并根据该领域的挑战提供了未来研究方向的展望。