This paper explores self-supervised learning of amodal 3D feature representations from RGB and RGB-D posed images and videos, agnostic to object and scene semantic content, and evaluates the resulting scene representations in the downstream tasks of visual correspondence, object tracking, and object detection. The model infers a latent3D representation of the scene in the form of 3D feature points, where each continuous world 3D point is mapped to its corresponding feature vector. The model is trained for contrastive view prediction by rendering 3D feature clouds in queried viewpoints and matching against the 3D feature point cloud predicted from the query view. Notably, the representation can be queried for any 3D location, even if it is not visible from the input view. Our model brings together three powerful ideas of recent exciting research work: 3D feature grids as a neural bottleneck for view prediction, implicit functions for handling resolution limitations of 3D grids, and contrastive learning for unsupervised training of feature representations. We show the resulting 3D visual feature representations effectively scale across objects and scenes, imagine information occluded or missing from the input viewpoints, track objects over time, align semantically related objects in 3D, and improve 3D object detection. We outperform many existing state-of-the-art methods for 3D feature learning and view prediction, which are either limited by 3D grid spatial resolution, do not attempt to build amodal 3D representations, or do not handle combinatorial scene variability due to their non-convolutional bottlenecks.


翻译:本文探索从 RGB 和 RGB- D 提供的图像和视频中以自我监督的方式学习 3D 模式特征表达方式, 以 RGB 和 RGB- D 提供的图像和视频对3D 特征表达方式进行自我监督的学习, 对对象和场景语义内容的不可知性进行测试, 并评估在视觉通信、 对象跟踪和天体探测等下游任务中产生的场景表现方式。 模型推断出以 3D 特征点为形式的场景隐含3D 表现方式, 每个连续世界 3D 点被映射到相应的特性矢量矢量矢量。 模型对3D 进行了对比性预测, 将3D 特征显示为3D 特征云云云云, 将3D 3D 图像显示为3D, 从输入视图中无法看到, 3D 将3D 图像显示为3 3D 状态表达方式, 将3D 图像对象和图像显示为3 3D 图像 3, 图像显示为3 3O 演示 3, 分析 方向 学习 3- 3D 方向 3D,, 现有 方向 数据 学习 3D, 通过 方向 3D 、 方向 、 显示为3D 3D 方向 进行许多 、 、 、 、 学习 3D 3D 、 、 、 、 、 3D 、 方向 、 方向 、 、 、 方向 、 、 方向 、 等、 、 、 、 、 、 等、 、 、 、 、 、 等、 、 、 、 、 、 、 、 等、 、 、 、 、 、 、 、 、 、 、 、 等、 、 、 、 、 等、 、 、 、 、 、 、 等、 、 、 、 、 、 、 、 、 、 、 、 等、 、 、 、 、 、 、 等、 、 、 等、 、 、

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
专知会员服务
67+阅读 · 2021年5月21日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
80+阅读 · 2020年6月11日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
专知会员服务
110+阅读 · 2020年3月12日
已删除
将门创投
3+阅读 · 2020年8月3日
“CVPR 2020 接受论文列表 1470篇论文都在这了
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
31+阅读 · 2020年9月21日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2020年8月3日
“CVPR 2020 接受论文列表 1470篇论文都在这了
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
14+阅读 · 2021年3月10日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
31+阅读 · 2020年9月21日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
27+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员