Pre-training has become a standard paradigm in many computer vision tasks. However, most of the methods are generally designed on the RGB image domain. Due to the discrepancy between the two-dimensional image plane and the three-dimensional space, such pre-trained models fail to perceive spatial information and serve as sub-optimal solutions for 3D-related tasks. To bridge this gap, we aim to learn a spatial-aware visual representation that can describe the three-dimensional space and is more suitable and effective for these tasks. To leverage point clouds, which are much more superior in providing spatial information compared to images, we propose a simple yet effective 2D Image and 3D Point cloud Unsupervised pre-training strategy, called SimIPU. Specifically, we develop a multi-modal contrastive learning framework that consists of an intra-modal spatial perception module to learn a spatial-aware representation from point clouds and an inter-modal feature interaction module to transfer the capability of perceiving spatial information from the point cloud encoder to the image encoder, respectively. Positive pairs for contrastive losses are established by the matching algorithm and the projection matrix. The whole framework is trained in an unsupervised end-to-end fashion. To the best of our knowledge, this is the first study to explore contrastive learning pre-training strategies for outdoor multi-modal datasets, containing paired camera images and LIDAR point clouds. Codes and models are available at https://github.com/zhyever/SimIPU.


翻译:然而,大多数方法一般都是在 RGB 图像域上设计。由于二维图像平面和三维空间之间的差异,这些经过预先训练的模型无法看到空间信息,不能作为3D相关任务的亚最佳解决方案。为了缩小这一差距,我们的目标是学习一个空间认知的视觉演示,可以描述三维空间,并且更适合和更有效地执行这些任务。要利用在提供空间信息方面比图像要高得多的点云,我们提议一个简单而有效的 2D 图像和 3D 云不受监督的预培训前战略,称为SimPI。具体地说,我们开发了一个多模式对比学习框架,其中包括一个内部空间认知模块,从点云中学习空间认知的表达,以及一个现代地貌互动模块,将空间信息从点云层编码器到图像摄像机的接收能力分别是更适合的。对比性损失的正面配对由匹配的算法和投影模型建立,称为Simippi。我们开发了一个多模式的模型,整个框架是用来进行非超级的学习。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【AAAI2022】SVT-Net的超轻量化网络
专知会员服务
21+阅读 · 2021年12月5日
专知会员服务
90+阅读 · 2021年6月29日
专知会员服务
32+阅读 · 2021年6月12日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
“CVPR 2020 接受论文列表 1470篇论文都在这了
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
计算机视觉领域顶会CVPR 2018 接受论文列表
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)
泡泡机器人SLAM
16+阅读 · 2017年12月31日
Arxiv
14+阅读 · 2021年3月10日
VIP会员
相关VIP内容
【AAAI2022】SVT-Net的超轻量化网络
专知会员服务
21+阅读 · 2021年12月5日
专知会员服务
90+阅读 · 2021年6月29日
专知会员服务
32+阅读 · 2021年6月12日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
计算机视觉领域顶会CVPR 2018 接受论文列表
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)
泡泡机器人SLAM
16+阅读 · 2017年12月31日
Top
微信扫码咨询专知VIP会员