Compared to 2D object bounding-box labeling, it is very difficult for humans to annotate 3D object poses, especially when depth images of scenes are unavailable. This paper investigates whether we can estimate the object poses effectively when only RGB images and 2D object annotations are given. To this end, we present a two-step pose estimation framework to attain 6DoF object poses from 2D object bounding-boxes. In the first step, the framework learns to segment objects from real and synthetic data in a weakly-supervised fashion, and the segmentation masks will act as a prior for pose estimation. In the second step, we design a dual-scale pose estimation network, namely DSC-PoseNet, to predict object poses by employing a differential renderer. To be specific, our DSC-PoseNet firstly predicts object poses in the original image scale by comparing the segmentation masks and the rendered visible object masks. Then, we resize object regions to a fixed scale to estimate poses once again. In this fashion, we eliminate large scale variations and focus on rotation estimation, thus facilitating pose estimation. Moreover, we exploit the initial pose estimation to generate pseudo ground-truth to train our DSC-PoseNet in a self-supervised manner. The estimation results in these two scales are ensembled as our final pose estimation. Extensive experiments on widely-used benchmarks demonstrate that our method outperforms state-of-the-art models trained on synthetic data by a large margin and even is on par with several fully-supervised methods.


翻译:与 2D 对象捆绑框标签相比, 人类很难对 3D 对象进行批注, 特别是当没有深度图像时 。 本文调查仅提供 RGB 图像和 2D 对象说明时, 我们是否可以对对象进行有效估计 。 为此, 我们提出一个两步的估算框架, 以达到 2D 对象捆绑框中的 6DoF 对象构成 。 在第一步, 框架学会从真实和合成数据中进行分解, 以薄弱的监控方式进行分解, 分解面罩将作为进行估计的先行。 在第二步, 我们设计一个双比例的组合估计网络, 即 DSC- PoseNet, 以使用差分解介器来预测对象构成的对象。 具体地, 我们的 DSC- PoseNet 首先通过比较分解面遮罩和可见的物体面具来预测原始图像比例。 然后, 我们把对象区域重新调整为固定规模, 以便再次进行估测测。 这样, 我们就可以消除大规模的规模变化, 和聚焦于轮值估算, 从而便利做出估测算 。 此外, 我们的模型的模型的模型中, 我们用两个 的模型的模型的模型 正在全面 将 模拟的模型 进行自我估测算。

0
下载
关闭预览

相关内容

【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年2月28日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关VIP内容
相关资讯
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年2月28日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员