We propose a method to detect and reconstruct multiple 3D objects from a single RGB image. The key idea is to optimize for detection, alignment and shape jointly over all objects in the RGB image, while focusing on realistic and physically plausible reconstructions. To this end, we propose a keypoint detector that localizes objects as center points and directly predicts all object properties, including 9-DoF bounding boxes and 3D shapes -- all in a single forward pass. The proposed method formulates 3D shape reconstruction as a shape selection problem, i.e. it selects among exemplar shapes from a given database. This makes it agnostic to shape representations, which enables a lightweight reconstruction of realistic and visually-pleasing shapes based on CAD-models, while the training objective is formulated around point clouds and voxel representations. A collision-loss promotes non-intersecting objects, further increasing the reconstruction realism. Given the RGB image, the presented approach performs lightweight reconstruction in a single-stage, it is real-time capable, fully differentiable and end-to-end trainable. Our experiments compare multiple approaches for 9-DoF bounding box estimation, evaluate the novel shape-selection mechanism and compare to recent methods in terms of 3D bounding box estimation and 3D shape reconstruction quality.


翻译:我们提出了一个从一个 RGB 图像中检测和重建多个 3D 对象的方法。 关键的想法是优化对 RGB 图像中的所有对象进行检测、 校正和形状的组合, 重点是现实和物理上合理的重建。 为此, 我们建议了一个关键点探测器, 将对象定位为中心点, 直接预测所有对象属性, 包括9- DoF 捆绑框和 3D 形状 -- -- 全部在一个前方通道中。 拟议的方法将 3D 形状重建作为一个形状选择问题, 即它从给定的数据库中选择一些外形。 这使得它能够对映像进行优化, 从而能够对基于 CAD 模型的现实和视觉的形状进行轻量级重建, 而培训目标则是围绕点云和毒气表示来制定。 碰撞损失会促进非相互交错的物体, 进一步增加重建现实主义。 鉴于 RGB 图像, 所提出的方法在单一阶段进行轻度的重建, 它是一种实时的、 完全不同的和最终的D 训练工具 。 我们的重新对比了以 9F 框框框 的组合 评估 3 的组合 的模型, 对比了最近 的组合 评估 的组合 的 的组合 的 的 评估 的 的 的 的 的 的 的 框框 的 的 的 的 的 的 的 的 的 框框 的 的 的 的 的 的 的 的 的 框 的 的 的 的 的 的 的 的 的 的 的 的 的 框 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的

0
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
“CVPR 2020 接受论文列表 1470篇论文都在这了
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
已删除
将门创投
4+阅读 · 2019年9月10日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Arxiv
0+阅读 · 2021年8月20日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
已删除
将门创投
4+阅读 · 2019年9月10日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Top
微信扫码咨询专知VIP会员