【泡泡图灵智库】稀疏不变的卷积神经网络

会员服务 ·

【泡泡图灵智库】稀疏不变的卷积神经网络

2019 年 10 月 29 日 泡泡机器人SLAM

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Sparsity Invariant CNNs

作者：Jonas Uhrig, Nick Schneider and so on.

来源：3DV 2017

播音员：

编译：杨宇超

审核：蔡纪源

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——Sparsity Invariant CNNs：稀疏不变的卷积神经网络，该文章发表于3DV 2017。

本文研究输入稀疏情况下的卷积神经网络，并将其应用于稀疏激光扫描数据的深度信息补全。首先，传统的卷积网络在应用于稀疏数据时表现较差，即使向网络提供缺失数据的位置时也是如此。为了克服这个问题，本文提出了一个简单而有效的稀疏卷积层，它在卷积运算中明确地考虑了缺失数据的位置。在合成与真实数据实验中，与各种基准方法的对比结果显示了所提出的网络体系结构的优点。与稠密基准相比，本文提出的稀疏卷积网络可以很好地推广到新的数据集中，并且不会因为输入数据的稀疏程度而影响网络输出结果的好坏。为了进行评估，本文从KITTI基准测试中推导出一个新的数据集，包含93k经过深度标注的图像。本文的数据集允许在具有挑战性的实际环境中进行深度信息补全和深度预测方法的训练和评估。

主要贡献

1、本文提出了一个简单而有效的稀疏卷积层，它在卷积运算中明确地考虑了缺失数据的位置，根据输入像素的有效性对卷积核的元素进行加权。

2、提出从KITTI基准测试中推导出一个新的数据集，包含93k经过深度标注的图像。

3 、本文的数据集允许在具有挑战性的实际环境中进行深度信息补全和深度预测方法的训练和评估。

算法流程

图1 Sparse Convolutional Network

1 稀疏卷积网络的实现

1.1 网络结构（图1（a））

网络输入是稀疏深度图(黄色)和二进制观测有效性掩码(红色)。它通过几个稀疏卷积层(虚线)，内核大小从11×11减少到3×3。

1.2 稀疏卷积运算示意图（图1（b））

⊙表示元素乘法，*表示卷积，1/x反转以及最大池化操作，输入的特征可以是单通道的也可以是多通道的。

1.2.1 标准CNN的卷积层运算以及稀疏的卷积层运算

稀疏卷积操作是为了使滤波器的输出与实际观测到的输入数量保持不变，而实际的输入由于稀疏和不规则而在不同滤波器的位置上有明显变化。在将信息传播到后续层时，需要跟踪可见性状态并将其提供给网络的下一层。当没有观察到任何滤波器输入时，我们希望将输出位置标记为未观察到。通过最大池化操作确定网络中的后续观察mask。

1.2.2 最大池化运算：

卷积层的输出和池化层的输出共同作为下一层稀疏卷积的输入。

2 大规模数据集的产生：

2.1 基于KITTI原始数据集（包含了超过94k帧，具有半密度的深度标定信息。）

2.2 通过将扫描深度与使用半全局匹配（SGM）的立体重建方法的结果进行比较来去除激光扫描中的异常值。

由于SGM和激光雷达在这些区域很少达成一致，因此可以使用这种简单的技术去除由于反射和透明表面引起的大多数外点。

2.3 数据集的评测

（1）在平均绝对误差(MAE)方面，本文提出的数据集几乎达到了与原始激光雷达扫描相同的精度水平。

（2）在均方根误差（RMSE）、KITTI离群值以及最大平均相对误差方面，本文提出的数据集胜过所有的基准结果。

（3）该数据集的深度信息稠密程度是原始激光雷达扫描的深度图的四倍。

图2 大规模数据集比较

在本文提出的数据集中只发现很少的错误。大多数剩余的错误位于动态对象或远距离。相比之下，SGM结果在远距离处是不准确的，并且激光雷达扫描导致由于激光雷达传感器和用于投影的虚拟相机（我们在所有实验中使用KITTI参考相机的图像平面）的不同放置而导致的遮挡误差。如图2所示，可以注意一些动态目标（例如，左侧的汽车）会在累积的激光雷达扫描中导致很明显的误差，而这些误差在我们的技术中可以大大减少。

主要结果

1、稀疏卷积网络在不同稀疏水平上的表现

无论在训练期间，输入数据呈现何种稀疏程度，本文提出的稀疏卷积网络对于各种各样稀疏水平的输入数据，性能都不会变化。

2、输入信息的要求

本文将深度信息作为网络的唯一输入，从而摆脱了对于多模传感器设置中相机信息的依赖。此方法与引导深度补全中的最新方法相当，甚至优于使用图像引导的几种方法。

3 极稀疏信息的影响

为了分析稀疏性对结果的影响程度，我们在新标注的KITTI子集上对比了不同稀疏度对稀疏卷积网络和基准算法的影响。首先，使用完整的激光测量数据训练每个网络，然后随机丢弃一些数据来改变输入数据密度以评估性能。我们在下图中的结果证明了稀疏卷积网络对不同稀疏度的泛化能力。在存在稀疏输入的情况下，常规卷积以及几种最先进的方法都表现不佳。

4 不同于深度的输出模态

本文训练了众所周知的VGG16架构，证明了提出的网络可以从稀疏深度信息输入进行语义标记的任务。我们通过使用稀疏卷积模块替换常规卷积来修改VGG16。此外，还应用了加权跨连接，从小的、空间下采样的FC7层生成高分辨率预测，同时还合并各个网络阶段的观测有效性掩模。

总结：

（1）提出了一种新颖的稀疏卷积模块，用于处理稀疏输入，可以取代常规卷积模块，从而提高性能，同时很好地推广到新的域或稀疏度级别。

（2）提供了一个带有93k深度注释图像的全新的标注数据集，用于训练和评估深度预测和深度补全技术。

未来展望：作者计划将提出的稀疏卷积网络与网络压缩技术相结合，以处理稀疏输入，同时提高效率以及进一步计划研究稀疏不规则输入对3D CNN的影响。

Abstract

In this paper, we consider convolutional neural networks operating on sparse inputs with an application to depth upsampling from sparse laser scan data. First, we show that traditional convolutional networks perform poorly when applied to sparse data even when the location of missing data is provided to the network. To overcome this problem, we propose a simple yet effective sparse convolution layer which explicitly considers the location of missing data during the convolution operation. We demonstrate the benefits of the proposed network architecture in synthetic and real experiments with respect to various baseline approaches. Compared to dense baselines, the proposed sparse convolution network generalizes well to novel datasets and is invariant to the level of sparsity in the data. For our evaluation, we derive a novel dataset from the KITTI benchmark, comprising 93k depth annotated RGB images. Our dataset allows for training and evaluating depth upsampling and depth prediction techniques in challenging real-world settings and will be made available upon publication.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

点击阅读原文，即可获取本文下载链接。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/