Locating 3D objects from a single RGB image via Perspective-n-Point (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, allowing for partial learning of 2D-3D point correspondences by backpropagating the gradients of pose loss. Yet, learning the entire correspondences from scratch is highly challenging, particularly for ambiguous pose solutions, where the globally optimal pose is theoretically non-differentiable w.r.t. the points. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose with differentiable probability density on the SE(3) manifold. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle generalizes previous approaches, and resembles the attention mechanism. EPro-PnP can enhance existing correspondence networks, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation benchmark. Furthermore, EPro-PnP helps to explore new possibilities of network design, as we demonstrate a novel deformable correspondence network with the state-of-the-art pose accuracy on the nuScenes 3D object detection benchmark. Our code is available at https://github.com/tjiiv-cprg/EPro-PnP-v2.


翻译:从单个RGB图像中定位3D对象的透视n点(PnP)一直是计算机视觉中的悬而未决问题。受端到端深度学习驱动,最近的研究表明将PnP解释为可微分层,允许通过反向传播姿态损失的梯度部分学习2D-3D点对应关系。然而,从头开始学习整个对应关系具有非常大的挑战性,特别是对于模糊的姿态解决方案,其中全局最优姿态理论上对于点是不可微分的。在本文中,我们提出了EPro-PnP,这是一种用于一般端到端姿态估计的概率PnP层,它输出分布式的姿态,具有可微分的SE(3)流形上的概率密度。2D-3D坐标和相应的权重被视为中间变量,通过最小化预测和目标姿态分布之间的KL散度来进行学习。底层原理概括了之前的方法,并类似于注意机制。EPro-PnP可以增强现有的对应网络,缩小了基于PnP的方法和LineMOD 6DoF姿态估计基准测试中任务特定领导者之间的差距。此外,EPro-PnP有助于探索网络设计的新可能性,因为我们展示了一种新型的可变形对应网络,在nuScenes 3D对象检测基准测试中具有最先进的姿态精度。我们的代码可在https://github.com/tjiiv-cprg/EPro-PnP-v2 上获得。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
59+阅读 · 2021年3月17日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
【泡泡一分钟】RoomNet:端到端房屋布局估计
泡泡机器人SLAM
18+阅读 · 2018年12月4日
【泡泡一分钟】自然中的表面法向量(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
0+阅读 · 2023年5月10日
VIP会员
相关资讯
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
【泡泡一分钟】RoomNet:端到端房屋布局估计
泡泡机器人SLAM
18+阅读 · 2018年12月4日
【泡泡一分钟】自然中的表面法向量(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员