物体位姿包含相机坐标系下物体的三维平移与三维旋转,在计算机视觉与机器人学中有着广泛应用,如指导机器人抓取与操纵物体,在增强现实中将虚拟内容叠加在真实物体上等。不同于只能应用于已知物体的实例级别位姿估计,[1] 提出的类级别物体位姿估计问题要求对来自已知物体类别、与训练物体存在几何差异的未知测试物体进行九自由度的位姿估计,即估计物体的三维尺寸、三维平移、三维旋转,更适用于实际应用中形状外观各异的真实物体。[2] 进一步将对刚性物体的位姿估计拓展到带关节物体(如笔记本电脑、抽屉、眼镜)上,为理解和模仿人类与带关节物体之间的复杂互动奠定了基础。
目前,大部分类级别物体位姿估计的工作聚焦于单帧位姿估计,而我们希望能对连续多帧观测进行时序上平滑的物体位姿追踪,从而更好地服务于增强现实、基于实时反馈的闭环控制等应用。我们提出了首个可以同时应用于刚性物体和带关节物体,运行在类级别场景下的九自由度位姿追踪框架。给定当前帧的深度点云与上一帧的物体位姿估计,本文提出的框架能通过端到端的训练,准确地更新位姿估计,在估计准确率与运行速度上都超过了已有的最好方法。