UBC、谷歌联合Hinton等提出3D点云的无监督胶囊网络,多任务上实现SOTA

2020 年 12 月 30 日 计算机视觉life

点击上方“计算机视觉life”,选择“星标”

快速获得最新干货

本文转自机器之心

这是一种为 3D 点云提出的无监督胶囊架构,并且在 3D 点云重构、配准和无监督分类方面优于 SOTA 方法。

理解对象是计算机视觉的核心问题之一。传统方法而言,理解对象任务可以依赖于大型带注释的数据集,而无监督方法已经消除了对标签的需求。近来,研究人员试图将这些方法扩展到 3D 点云问题上,但无监督 3D 学习领域却进展寥寥。

近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等来自英属哥伦比亚大学、谷歌研究院、多伦多大学的研究者提出了用于 3D 点云的无监督胶囊网络。Hinton 对此表示:在不受监督的情况下找到一个对象的自然组件以及这些组件的内在参照系是学习将解析图像转换为局部整体层级结构的重要一步。如果以点云开始,则可以做到。


具体而言,研究者通过排列等变(permutation-equivariant)的注意力计算对象的胶囊分解,并通过训练成对的随机旋转对象来自监督该过程。本研究的核心思想是将注意力掩模聚合为语义关键点,并使用它们来监督满足胶囊不变性或等方差的分解。这不仅可以训练语义上一致的分解,还能够学习以对象为中心的推理的规范化操作。在这种情况下,既不需要分类标签,也不需要手动对齐的训练数据集进行训练。

最后,通过以无监督的方式学习以对象为中心的表征,该方法在 3D 点云重构、配准和无监督分类方面优于 SOTA 方法。研究者表示将很快公布源代码和数据集。


  • 论文链接:https://arxiv.org/abs/2012.04718

  • 项目主页:https://canonical-capsules.github.io/


方法

该网络在未对齐的点云上进行训练,如下图 2 所示:研究者训练了一个将点云分解为多个组件的网络,并通过 Siamese 训练设置实现不变性 / 等方差。


然后研究者将点云规范化为学习的参照系,并在该坐标空间中执行自动编码。

损失

正如无监督方法中常见的那样,该研究的框架依赖于大量的损失,这些损失控制着力图在表征中获得的不同特征。请注意所有这些损失是如何不受监督且不需要标签的。研究者根据他们监督的网络部分组织损失,包括分解、规范化和重建。

网络架构

研究者简要介绍了实现细节,包括网络架构。

  • 编码器 E。我们的架构是基于 [42] 提出一种类似于点网的架构,具有残差连接和注意力上下文归一化;

  • 解码器 D。公式 (4) 中的解码器基于每个胶囊运行。本研究采用的解码器架构类似于 AtlasNetV2 [13](带有可训练的网格)。不同之处在于本研究通过相应的胶囊姿态转换每个胶囊的解码点云;



  • 回归器 K。研究者只需连接描述符,并通过 ReLU 激活函数调用一系列全连接层,以回归 P 胶囊定位。在输出层,研究者使用线性激活函数,并进一步减去输出平均值,以使回归位置在规范化框架中以零为中心(zero-centered);

  • 规范化描述符。由于本研究的描述符只是近似旋转不变(通过扩展),研究者发现在规范化之后重新提取胶囊描述符β_k 很有用。


实验及结果

自动编码

研究者针对两个训练基线(在单类别和多类别变体中经过了训练)评估了用于训练网络任务(重建 / 自动编码)的方法的性能:

AtlasNetV2 [13],一种使用基于补丁(patch-based)多头解码器的 SOTA 自动编码器;
3D-PointCapsNet [58],一种利用胶囊架构的 3D 点云自动编码器。

下表 1 是定量分析的结果,本文方法在对齐和未对齐的设置下均取得了 SOTA 的性能结果。


下图 3 是定性分析的结果。研究者给出了基于分解的 3D 点云重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13]的重建结果。


配准

研究者在配准 3D 点云的能力方面评估了该方法的性能,并与以下 3 个基准进行了比较:

  • Deep Closest Points (DCP) [52]:一种基于深度学习的点云配准方法;

  • DeepGMR–RRI [56],一种 SOTA 方法,该方法可以将云分解为具有旋转不变特征的高斯混合;

  • DeepGMR–XYZ [56],其中将原始 XYZ 坐标用作输入,而不使用旋转不变特征;


本研究采用的变体方法 RRI,其中使用 RRI 特征 [6] 作为该架构的唯一输入。本文使用 RRI 特征的方法遵循 DeepGMR 训练协议,并训练 100 个周期,而对于 DCP 和 DeepGMR,本研究使用了原作者的官方实现。定量分析的结果如下表 2 所示:


无监督分类

除了重建和配准(这两者是与训练损失直接相关的任务)之外,本研究还通过分类任务评估了方法的有效性,该分类任务与训练损失没有任何关系。结果如下表 3 所示,本文方法均实现了 SOTA 的 Top-1 准确率。


控制变量实验

此外,为了进一步分析规范化胶囊(Canonical Capsules)的不同组件对性能的影响,本研究进行了一系列控制变量实验,结果如下表 4、表 6、表 7 所示:

表 4:损失的影响。

表 6:规范描述符的有效性。

表 7:点的数量对性能的影响。



专辑:计算机视觉方向简介

专辑:视觉SLAM入门

专辑:最新SLAM/三维视觉论文/开源

专辑:三维视觉/SLAM公开课

专辑:深度相机原理及应用

专辑:手机双摄头技术解析与应用

专辑:相机标定

专辑:全景相机

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

投稿、合作也欢迎联系:simiter@126.com

扫描关注视频号,看最新技术落地及开源方案视频秀 ↓


登录查看更多
1

相关内容

根据激光测量原理得到的点云,包括三维坐标(XYZ)和激光反射强度(Intensity)。 根据摄影测量原理得到的点云,包括三维坐标(XYZ)和颜色信息(RGB)。 结合激光测量和摄影测量原理得到点云,包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。 在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为“点云”(Point Cloud)
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
13+阅读 · 2021年4月26日
专知会员服务
45+阅读 · 2021年1月31日
专知会员服务
29+阅读 · 2020年10月24日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
26+阅读 · 2020年9月18日
专知会员服务
30+阅读 · 2020年9月18日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
94+阅读 · 2020年6月19日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
38+阅读 · 2020年3月31日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
Arxiv
0+阅读 · 2021年4月22日
Arxiv
14+阅读 · 2020年9月1日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
4+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2018年1月16日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关论文
Arxiv
0+阅读 · 2021年4月22日
Arxiv
14+阅读 · 2020年9月1日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
4+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2018年1月16日
Arxiv
5+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员