泡泡点云时空,带你精读点云领域顶级会议文章
标题:Octree guided CNN with Spherical Kernels for 3D Point Clouds
作者:Huan Lei, Naveed Akhtar, Ajmal Mian, The University of Western Australia
来源:arxiv
编译:王宇杰
审核:徐二帅,吕佳俊
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
本文提出了一种参考八叉树设计的神经网络架构,以及能用于任意3D点云特征学习的球形卷积核。 该网络利用了不规则点云数据的稀疏性质,并通过空间划分方法得到分层粗化的数据表征。 同时,我们提出的球形卷积核系统地量化了3D空间点邻域,在识别数据的局部几何结构的同时,保证了卷积运算的平移不变性和不对称性。 我们利用网络神经元与3D点空间位置的对应关系来指定该点需要使用的球形卷积核。 我们利用这种关联来避免训练过程中生成动态卷积核,从而实现了高效、高分辨率的点云学习。我们通过3D对象分类和分割的基准任务来验证该方法的有效性,最终在ShapeNet和RueMonge2014数据集上实现了最先进的效果。
主要贡献
提出了一种新的具有平移不变性和非对称性的卷积核,并用于不规则点云的逐点特征学习;
在参考八叉树设计的神经网络中应用上述卷积核学习特征,与之前通过在点云体素化中应用八叉树不同的是,本文分层地粗化数据并使用空间分区构建3D点邻域,以避免耗时的K-NN /范围搜索;
通过使用ModelNets 数据集进行3D对象分类,ShapeNet 数据集进行部件分割,RueMonge2014数据集进行语义分割任务,在最后两个数据集上实现新的最先进效果,从而验证了所提出算法的有效性。
算法网络框架
3D CNN受限于存储器的立方次增长和输入体积数据的计算要求,无法处理高分辨率的3D数据。因此Riegler等人提出了OctNet,它用一组混合的浅网格八叉树(深度= 3)来表征点云。OctNet在很大程度上降低了计算和内存成本,适用于高达256×256×256的高分辨率输入。虽然都使用八叉树,但本文与OctNet的方法存在重大差异。首先,受限于3D-CNN的卷积核结构,OctNet必须以常规3D体素的方式处理点云,而本文提出的球形卷积核没有这样的约束。其次,本文能够用单个深八叉树学习点云表示,而不是使用浅树的混合。
图1:参考八叉树设计的网络架构示意图:利用深度为3的八叉树对点云进行空间划分,将3D点分配给最大深度的树节点,并根据子节点位置的期望来计算父节点的位置。 拷贝浅枝上的叶节点以匹配树的最大深度。 对应设计的神经网络的隐藏层数与八叉树的深度相同,并且利用球形卷积核用于特征提取。
图2:参考八叉树设计的Ψ-CNN,利用八叉树的数据结构直接对原始点云进行空间划分。 通过应用球形卷积核,在网络的每一层(上图为三层)对数据表征进行分层粗化。 球形卷积核系统地将点xi周围的空间分成多个体积小块。 对于第j个相邻点xj,卷积核首先确定其所在的体积小块,并使用为该小块定义的权重矩阵Wk来计算激活值。 在三维点云域中,我们提出的球形卷积核保留了标准二维卷积核的平移不变性和不对称性。
主要结果
ModelNets 数据集进行3D对象分类结果
ShapeNet 数据集进行部件分割结果
RueMonge2014数据集进行语义分割结果
对于每个10K大小样本输入的测试时间(ms)。法线的计算时间仅供参考 - 以红色表示。
八叉树结构与K-NN,范围搜索和Kd树的邻域计算比较
利用八叉树结构构建的点云分层粗化的实例。 'l'表示八叉树层级。
Ψ-CNN的高质量和低质量分割结果的代表性示例
Abstract
We propose an octree guided neural network architecture and spherical convolutional kernel for machine learning from arbitrary 3D point clouds. The network architecture capitalizes on the sparse nature of irregular point clouds, and hierarchically coarsens the data representation with space partitioning. At the same time, the proposed spherical kernels systematically quantize point neighborhoods to identify local geometric structures in the data, while maintaining the properties of translation-invariance and asymmetry. We specify spherical kernels with the help of network neurons that in turn are associated with spatial locations. We exploit this association to avert dynamic kernel generation during network training that enables efficient learning with high resolution point clouds. The effectiveness of the proposed technique is established on the benchmark tasks of 3D object classification and segmentation, achieving new state-of-the-art on ShapeNet and RueMonge2014 datasets.
如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号。
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/forums/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com