In this paper, we study the representation of the shape and pose of objects using their keypoints. Therefore, we propose an end-to-end method that simultaneously detects 2D keypoints from an image and lifts them to 3D. The proposed method learns both 2D detection and 3D lifting only from 2D keypoints annotations. In this regard, a novel method that explicitly disentangles the pose and 3D shape by means of augmentation-based cyclic self-supervision is proposed, for the first time. In addition of being end-to-end in image to 3D learning, our method also handles objects from multiple categories using a single neural network. We use a Transformer-based architecture to detect the keypoints, as well as to summarize the visual context of the image. This visual context information is then used while lifting the keypoints to 3D, so as to allow the context-based reasoning for better performance. While lifting, our method learns a small set of basis shapes and their sparse non-negative coefficients to represent the 3D shape in canonical frame. Our method can handle occlusions as well as wide variety of object classes. Our experiments on three benchmarks demonstrate that our method performs better than the state-of-the-art. Our source code will be made publicly available.


翻译:在本文中, 我们用关键点来研究对象的形状和形状。 因此, 我们提出一个端到端方法, 既从图像中检测 2D 关键点, 并将它们提升到 3D 。 提议的方法只从 2D 关键点注释中学习 2D 检测和 3D 。 在这方面, 首次提出了一种新颖方法, 以基于增强的以自行车为主的自我监督视野来明确分解形状和 3D 形状。 除了在图像中端到端到3D 学习之外, 我们的方法还同时用单一神经网络处理多个类别的物体。 我们使用一个基于变换器的架构来检测关键点, 并总结图像的视觉背景。 这个视觉背景信息随后在将关键点提升到 3D 时被使用, 以使基于背景的推理能够实现更好的性能。 我们的方法在3D 边框中学习了一套小的基础形状及其稀疏的非内系数来代表3D 形状 。 我们的方法可以将我们现有的三层的实验方法 演示我们三种不同的实验方法, 。 我们的模型将用来将我们现有的标准作为公共的源 。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
Arxiv
27+阅读 · 2020年12月24日
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
VIP会员
Top
微信扫码咨询专知VIP会员