【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

会员服务 ·

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

2018 年 8 月 7 日 泡泡机器人SLAM

泡泡点云时空，带你精读机器人顶级会议文章

标题：FoldingNet: Point Cloud Auto-encoder via Deep Grid Deformation

作者：Yaoqing Yang, Chen Feng, Yiru Shen, Dong Tian

来源：CVPR 2018 Spotlight

编译：郑英林

审核：李敏乐

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

简介

在这项工作中，我们专注于新兴的点云无监督学习领域，提出了一种自动编码器（AE），称为FoldingNet。

自动编码器中瓶颈层的输出称为码字(codeword)，可用作输入点云的高维嵌入。我们将展示二维栅格结构不仅仅是用于成像的采样结构，而且可以通过我们所提出的折叠操作来构造点云。

这是基于以下观察：我们感兴趣的三维点云是从物体表面获得的：或者从CAD/计算机图形中的边界重新定位离散化，或者是从LIDAR等视线传感器中采样。直观地，任何三维物体表面都可以通过某些操作（如切割，挤压和拉伸）转换为二维平面。它的逆向过程是通过某些折叠操作将这些二维点样本粘合回物体表面，这些操作被初始化为二维栅格样本。

如表1所示，为了重建点云，连续的折叠操作被连接以重建表面结构。

这些点被合并以显示初始二维栅格样本和重建的三维点样本之间的对应关系。使用基于折叠的方法，通过在解码器中直接引入这种隐式的二维栅格约束，可以很好地解决点云不规则结构带来的挑战，从而避免了其他工作中昂贵的三维体素化。

稍后将说明折叠操作可以在提供适当代码字的情况下构建任意表面。注意，当数据是体素格式而不是二维表面时，一个三维栅格可能表现更好。FoldingNet 网络结构如图1所示。

尽管重建点云的表现力很强，但折叠操作实际很简单：首先通过用编码器获得的码字增加二维栅格点，然后通过3层感知器处理。所提出的解码器只是两个折叠操作的连接。这种设计使得所提出的解码器的参数大大减少。

我们从理论上证明了基于折叠的结构是通用的，只使用2层感知器的一次折叠操作已经可以重新产生任意的点云结构。因此，我们的FoldingNet自动编码器利用两个连续的折叠操作可以产生精细的结构就不足为奇了。

此项工作的贡献有：

训练端到端的深度自动编码器，直接作用在无序点云。
提出了一种称为折叠的解码操作，并从理论上证明它在点云重建中具有普遍性，同时能为重建点提供顺序。
通过对主要数据集的实验，我们显示折叠可以实现比其他无监督方法更高的分类精度。

此外，FoldingNet还具有一定的将非规整栅格映射到三维点云上的能力。

如表2所示，随着FoldingNet的训练，随机的二维流形逐渐地变换到点云的表面

Abstract

Recent deep networks that directly handle points in a point set, e.g., PointNet, have been state-of-the-art for supervised learning tasks on point clouds such as classification and segmentation. In this work, a novel end-to-end deep auto-encoder is proposed to address unsupervised learning challenges on point clouds. On the encoder side, a graph-based enhancement is enforced to promote local structures on top of PointNet. Then, a novel folding-based decoder deforms a canonical 2D grid onto the underlying 3D object surface of a point cloud, achieving low reconstruction errors even for objects with delicate structures. The proposed decoder only uses about 7% parameters of a decoder with fully-connected neural networks, yet leads to a more discriminative representation that achieves higher linear SVM classification accuracy than the benchmark. In addition, the proposed decoder structure is shown, in theory, to be a generic architecture that is able to recon- struct an arbitrary point cloud from a 2D grid. Our code is available at http://www.merl.com/research/license#FoldingNet

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多

相关内容

点云

关注 48

根据激光测量原理得到的点云，包括三维坐标（XYZ）和激光反射强度（Intensity）。根据摄影测量原理得到的点云，包括三维坐标（XYZ）和颜色信息（RGB）。结合激光测量和摄影测量原理得到点云，包括三维坐标（XYZ）、激光反射强度（Intensity）和颜色信息（RGB）。在获取物体表面每个采样点的空间坐标后，得到的是一个点的集合，称之为“点云”(Point Cloud)

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日