CVPR 2020最新热点：物体位姿估计

2020 年 5 月 26 日 PaperWeekly

©PaperWeekly 原创 · 作者｜文永明

学校｜中山大学硕士生

研究方向｜物体位姿估计、目标检测

第一篇推荐的 CVPR 2020 论文来自伯明翰大学和国防科技大学，提出了一种新的实时 6D 目标姿态估计框架 G2L-Net，该网络在 RGB-D 探测的点云上以分治的方式运行，能节省时间，并且能达到 SOTA 的效果。这篇论文很好的是已经把代码开源放了出来。

该位姿估计模型框架流程可以分为以下三步：

第一步先从目标物体的 RGB-D 图像获得粗糙的点云。
第二步把目标物体的点云传进平移定位网络，进一步进行 3D 语义分割和估计目标物体的平移。
第三步把经过语义分割和平移后得到精细的点云转换到局部标准坐标系，用旋转定位网络来训练队点向嵌入特征估计物体的旋转。

▲ Fig 1. G2L-Net的框架示意图

笔者认为这篇文章特别之处在于两点，他们的点向嵌入特征充分利用了不同视角的信息从而提高了精度。之前大部分位姿估计模型包括 DenseFusion，它们的 refine 阶段估计得位姿是异步的，也就是先训练好粗略旋转的网络，进一步再去训练细化这个旋转。

而这篇论文另辟蹊径在旋转定位网络中估计的粗略旋转与旋转残差估计网络估计的旋转残差同步输出，从而节省了运行时间。

▲ Fig 2. 不同视点（对于一个3D物体，需要至少四个四点来覆盖）

充分利用不同视角信息的想法是来自他们发现在不同视角下全局特征是高度相关高度相似的，这限制了泛化性能，在实验部分就可以表明，在相同大小规模的数据集中，使用点向嵌入特征，由于引入的视角信息，能提高泛化能力。

▲ Fig 3. (a)相同数据规模下，G2L-Net与Frustum-P的ADD-(s)指标对比 (b)训练轮次的影响

其中的旋转定位网络由三个部分组成，如图 4 所示，先训练 A 结构的网络来预测指向关键点的单位向量，再用 B 结构来生成对于物体旋转估计的点向嵌入向量，再用 C 结构的网络来训练旋转残差。

▲ Fig 4. 旋转定位网络的结构

对于旋转定位网络，论文指出我们可以定义如下的损失函数：

其中表示关键点的数量，表示网络参数，和表示预测的向量和目标真实值，表示物体点云的标准坐标空间，则是点的数目。

最后来看看在 LINEMOD 数据集上的实验效果：

▲ Fig 5. G2L-Net实验效果

效果看起来真的很好了，ADD 指标达到了 98.7，FPS 是 23 倒是可以接受。笔者准备后续参考 github 公开的代码实验一番，看看到底是否真的能达到论文所说的这么好的效果来。

PVN3D

论文标题：PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/1911.04231

代码链接：https://github.com/ethnhe/PVN3D

这是一项港科大、深大还有旷视研究院合作的工作，将基于 2D 关键点的方法引入到 3D 位姿估计中，提出一种基于霍夫投票的 3D 关键点检测网络，利用了刚体的几何约束，提高了 6D 姿态估计的精确度。这篇论文代码也已经开源啦，有兴趣的同学可以去看看。

▲ Fig 6. PVN3D总框架

以 RGBD 图像为输入，使用特征提取模块融合外观特征和几何信息。将学习到的特征输入三维关键点检测模块，经过训练可以预测每个点的偏移量。此外，还是用了实例语义分割模块预测每个点的语义标签，而中心投票模块预测每个点到对象中心的偏移量。

通过学习每个点的偏移量，使用聚类算法来区分具有相同语义标签的不同实例和相同实例上的点对目标关键点进行投票。最后，将最小二乘拟合算法应用于预测关键点，估计出 6 自由度的位姿参数。

投票的点由聚类算法进行聚类以消除离群点的干扰，群集的中心点被选为投票选出的关键点，预测每个点偏移量的损失函数：

给定提取出的逐点特征，语义分割模块预测每点的语义标签，论文使用了 Focal loss：

而中心点投票模块投票出不同物体的中心点，以区分相同语义的不同实例，论文中使用了 L1 损失函数进行监督学习：

最终的多任务损失函数为：

对于关键点的选择训练实现，将最小二乘拟合算法应用于预测关键点：

同样，我们看一下在 LINEMOD 数据集上的实验效果，ADD(S) 指标是 95.1：

▲ Fig 7. PVN3D实验效果

YCB-Video 数据集的定性实验效果图：

▲ Fig 8. PVN3D定性实验（YCB-Video）

可以看到是比 DenseFusion 的效果稍好，DenseFusion 右边有个钳子都反了，而 PVN3D 没有，不过是部分定性实验的效果，未知全貌了。

DPVL

论文标题：6DoF Object Pose Estimation via Differentiable Proxy Voting Loss

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/2002.03923

这是一项来自澳大利亚国立大学的工作，可谓是“小题大做”型的论文了，论文考虑的角度是，基于向量场的关键点投票已经证明了它在解决 6D 位姿估计问题上的有效性和优越性。

然而，向量场的直接回归忽略了像素点与关键点之间的距离对假设偏差的影响。换句话说，当像素远离关键点时，方向向量上的小误差可能会对预估的关键点产生严重偏差。直观点就是如图 9 所示：

▲ Fig 9. DPVL

相同的角度，当距离越远时，预估的关键点会和实际的关键点产生更大的距离偏差。为了解决这种忽略了像素点与关键点之间的距离对假设偏差的影响，他们提出了一种可微分的代理投票损失。

▲ Fig 10. DPVL总框架

论文作者使用了 smooth L1 损失来回归真实的方向向量：

其中，表示估计的方向向量，表示物体的掩码，表示知识函数，表示标量变量。

如前所述，单位方向向量估计误差较小，也可能会导致假设偏差较大，假设点不集中会导致关键点不准确，从而降低姿态估计的性能。与以前的工作不同，考虑了假设点的分布，并强制所有的假设点接近于真实关键点。假设一个对象包含个像素，则有个假设。

虽然对于从两个像素点获得两个方向向量的假设有一个封闭的解，但是计算所有的假设会导致深度网络的训练效率低下，特别是当一个物体的分辨率非常大的时候，由于决定一个关键点到直线上某个点的距离是没有上界的，而是有下界的。

所以选择使用通过一个关键点的垂线的垂足来近似代理假设点。这样，我们只需要计算个垂线，而不是个假设，大大减少了计算量。

更重要的是，一个关键点 与垂足 与像素 的方向向量 之间的距离是一个闭合形式的解，也是可微的。因此，将距离最小化作为可微分的代理投票损失（DPVL） ，以迫使代理假设点更接近于关键点：

其中

，由于是直接从我们的网络中估计出来的，它可能不是单位向量，所以在这里面中有一个归一化操作。

在 LINEMOD 数据集上的实验效果，ADD(S) 指标是 91.50：

效果上在这三篇里面是最低的了，但是贵在文章的可微分的公式推理上有可取之处，定性效果如下：

对比原来向量场的直接回归的方法 PVNet 来说，是有所改进的。

总结

毫无疑问，对于视觉领域来说，越来越多迹象显示未来的研究热点要么在时间维度上，比如视频的处理和理解。另外一个就是在空间维度上做文章，如三维视觉（三维感知、SLAM、三维物体识别与分割、位姿估计），这里面 6 自由度的物体位姿估计的论文应该会越来越多，也会越做越好。

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

物体位姿

关注 0

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【KDD2020-阿里巴巴】M2GRL-多任务多视角图表示学习的Web级推荐系统

专知会员服务

37+阅读 · 2020年5月22日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

专知会员服务

69+阅读 · 2019年11月23日

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

ICCV2019 | 高精度，高效率点云三维重建 PointMVSNet

计算机视觉life

23+阅读 · 2019年9月5日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

【泡泡一分钟】基于合成数据训练的卷积神经网络的目标检测与姿态估计

泡泡机器人SLAM

13+阅读 · 2019年5月8日

【泡泡图灵智库】无标定相机的五点法基本矩阵估计（CVPR）

泡泡机器人SLAM

6+阅读 · 2019年3月19日

CVPR2019|微软、中科大开源基于深度高分辨表示学习的姿态估计算法

AI100

6+阅读 · 2019年3月2日

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

泡泡机器人SLAM

12+阅读 · 2019年1月26日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

Simple Multi-Resolution Representation Learning for Human Pose Estimation

Arxiv

6+阅读 · 2020年4月14日

ASLFeat: Learning Local Features of Accurate Shape and Localization

Arxiv

6+阅读 · 2020年3月23日

Graph Convolutional Networks for Temporal Action Localization

Arxiv

5+阅读 · 2019年9月7日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Arxiv

4+阅读 · 2018年9月23日

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Acquisition of Localization Confidence for Accurate Object Detection

Arxiv

4+阅读 · 2018年7月30日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

VIP会员

CVPR 2020最新热点：物体位姿估计

目录

相关内容