SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

2018 年 10 月 22 日 人工智能前沿讲习班

关注文章公众号

回复"常建龙"获取PDF资料

1、导读

通过有效的参数共享方式，卷积神经网络可以在保证模型的性能大量地减少模型参数，并因此逐渐发展成了深度学习的一个重要分支。自从2012年以来，大量的新型卷积神经网络结构被提出来解决实际中遇到的问题，并在计算机视觉领域（图像和视频）中取得了重大的成就。在实际中，除了图像和视频等处于欧几里得空间的数据之外，更多的数据是处于非欧几里得空间的，例如社交网络中的关系数据、三维点云数据、分子结构数据、基因数据和交通数据等等。由于局部输入的无序性和维度的可变性，传统卷积网络很难处理这种处于非欧几里得空间的数据。为此，我们一般化了传统卷积操作，使得新的卷积神经网络可以应用到一般结构的数据上，而不是仅局限于处理欧几里得空间的数据。

2、作者简介

常建龙，中国科学院自动化所博士生在读，2015年本科毕业于电子科技大学，研究兴趣为深度图网络，深度无监督学习和多智能体强化学习。欢迎志同道合的朋友一起交流讨论！

3、相关工作

图1. 常见卷积模型。

图1简单概括了一些常见的卷积操作。根据卷积的应用范围，我们将卷积分为欧几里得空间卷积和非欧几里得空间卷积。更为精细地，欧几里得空间的卷积可以分为手工设计的卷积和可学习的卷积；在非欧几里得空间的卷积可以分为谱域的卷积和空域的卷积。总的来说，所有的卷积都是在探讨如何对局部数据按照某一个操作聚合，不同的操作方式就对应于不同的卷积。

4、结构感知卷积

4.1对数据和卷积的思考

图2. 每个顶点表示像素点。中间图为4邻域，右图为6邻域。

数据=特征+结构。例如对图像而言，特征为像素值，结构为规格的格子空间。值得注意的是，虽然我们经常默认为图像的“十”字形的格子空间，其实“米”字形的格子空间也是可以表示图像的，即周围有6个邻域，而非4邻域，如图2所示。

图3. 欧几里得空间卷积和非欧几里得空间卷积。

卷积，其本质是局部数据的一个聚合操作。如图3所示，学习卷积核的过程其实是学习局部聚合参数的过程，并且每个局部的参数是可共享的。学习的过程即是确定这种聚合方式的过程。

4.2结构感知卷积

在传统卷积中，卷积核被表示为离散的向量。为了可以聚合任意为的局部输入，我们将离散的有限维卷积核一般化为连续的无穷维卷积核，即单变量函数。根据这一直观的泛化，我们有图4最后的表示。

图4. 结构感知卷积之卷积核泛化。

通过考虑局部输入的数据结构，我们将结构信息建模到了结构感知卷积中。如图5所示，卷积核的传统卷积隐式地建模了数据的局部结构。也就是说，传统卷积默认了“每个局部输入的第i-m+r个节点都是第i个节点的第i-m+r个邻居”。这种关系描述了一种很强的局部结构，但是仅仅适应于描述欧几里得空间数据。为了可以处理一般性的数据，我们对这种局部结构描述进行泛化，即用一个可学习的参数rji去替换原来的j-i+m来建模和学习局部的结构。此流程如图5所示。

图5. 结构感知卷积之结构泛化。

4.3结构感知卷积网络

图6给出了一个输入为两个通道、输出为一个通道的结构感知卷积。首先通过相似度估计，估计出两两节点之间的相似度rji，即关系或者结构。然后再用卷积核f和结构rji对每个节点周围的数据进行聚合，即最后的式子。

图6. 结构感知卷积网络，输入为两个通道，输出为一个通道。

4.4理解结构感知卷积

该定理直观表明结构感知卷积由局部结构确定的一个映射矩阵和全局共享的可学习的多项式系数构成。因此，在实际中结构感知卷积可通过局部结构得到一个映射矩阵，将任意维度的输入变换为固定维数，进而通过一个可共享的局部聚合操作来实现对任意结构的聚合。

值得注意的是，定理1虽然表明结构感知卷积是由两个部分组成，但是这在实际中运行效率很低。为了使得模型可以更高效地在GPU上运行，我们基于函数逼近理论用切比雪夫多项式来拟合新提出的函数滤波器，最终使结构感知卷积操作可以高效地且有效地在GPU上运行。这是因为，切比雪夫多项式的n阶基函数（n>1）都可以由n-1阶基函数和n-2阶基函数表示，所以函数滤波器的学习可以分解为一系列矩阵的迭代加法运算。因为GPU上适合执行矩阵运算，所以使得模型可以在实际中更高效地执行。

5、实验

5.1结构感知卷积网络的鲁棒性

图7. 结构感知网络的稳定性。

如图7所示，相对于传统的卷积网络，结构感知卷积对高斯噪声、旋转、平移和尺度变化更鲁棒。这是因为我们学习的卷积核来自于一个连续的函数，卷积核中的所有元素之间都是相关的，这使得卷积核更的方差更小、更光滑，最后获得更高的鲁棒性（光滑的卷积核的不变性更强来自于论文[13]）。

5.2消融实验

图8. 结构感知网络消融实验。(a) 基函数个数影响，(c)学习网络的可迁移性。

5.2.1基函数个数影响

不同阶数的基函数去用来拟合不同复杂度的函数卷积核。我们在STL-10数据库上建立不同的网络来证明基函数个数对结构感知卷积网络的影响。其中基准网络中卷积核大小为11*11，在结构感知卷积中基函数个数为t={5,40,80,120,160}。如图8（a）所示，当t为5的时候，结构感知卷积网络性能最差。随着t的增大，结构感知卷积网络的性能会优于传统卷积网络的性能，并且当t>40时已经有此优势了。这就意味着，传统的离散卷积核中的参数是有冗余的。也就是说，不仅仅高维的数据是嵌入在一个低维流形里面的，神经网络的海量参数也是嵌入在一个低维流形里面的（神经网络可以压缩的原因）。

5.2.2 结构感知卷积网络的可迁移性

我们在两个相似的图数据库（Reuters和20News）上做实验来证明学习得到的结构感知卷积网络是具备迁移性的。为此，我们首先在Reuters数据库上训练得到一个结构感知卷积网络，然后将其参数直接迁移到新的网络*SACNN上来完成对20News的分类。如图8（c）所示，借助于迁移得到的参数，我们的网络可以学习的更稳定、更快，并最终取得更好的性能。

更多细节请见原论文（实验+代码）。

6、结构感知卷积的应用

如图9所示，引入结构信息的函数卷积核可以被用在一些常见的理论和实践任务中去（包括并不局限于图中所示案例）。

图9. 结构感知卷积可以被应用的一些场景。

数学的优势在于能将复杂的问题用几个很简单的字母表示出来，例如经典的网络结构残差网络为y=F(x)+x、物理学中的质能方程为E=mc2等等。虽然看似简单，但是如何从更深刻的、更本质的角度去思考、归纳和建模，使得模型conceptuallyintuitive yet powerful是难点所在。

7、Take-home-message

8、参考文献

[1]James Atwood and Don Towsley. Diffusion-convolutional neural networks. In NIPS,2016.

[2]Davide Boscaini, Jonathan Masci, Emanuele Rodolà, and M. M. Bronstein. Learningshape correspondence with anisotropic convolutional neural networks. In NIPS,2016.

[3]M. M. Bronstein, Joan Bruna, Yann LeCun, Arthur Szlam, and PierreVandergheynst. Geometric deep learning: Going beyond euclidean data. IEEESignal Process. Mag., 2017.

[4]Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann LeCun. Spectral networksand locally connected networks on graphs. CoRR, 2013.

[5]Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutionalneural networks on graphs with fast localized spectral filtering. In NIPS,2016.

[6]Jianlong Chang, Jie Gu, Lingfeng Wang, Gaofeng Meng, Shiming Xiang, andChunhong Pan. Structure-Aware Convolutional Neural Networks. In NIPS 2018.

[7]T. N. Kipf and Max Welling. Semi-supervised classification with graphconvolutional networks. CoRR, 2016.

[8]Jonathan Masci, Davide Boscaini, M. M. Bronstein, and Pierre Vandergheynst.Geodesic convolutional neural networks on riemannian manifolds. In ICCVWorkshops, 2015.

[9]Federico Monti, Davide Boscaini, Jonathan Masci, Emanuele Rodolà, Jan Svoboda,and M. M. Bronstein. Geometric deep learning on graphs and manifolds usingmixture model cnns. In CVPR, 2017.

[10]Martin Simonovsky and Nikos Komodakis. Dynamic edge-conditioned filters inconvolutional neural networks on graphs. In CVPR, 2017.

[11]Nitika Verma, Edmond Boyer, and Jakob Verbeek. Dynamic filters in graphconvolutional networks. CoRR, 2017.

[12]Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and YichenWei. Deformable convolutional networks. In ICCV, 2017

[13]Avraham Ruderman, N. C. Rabinowitz, A. S. Morcos, and Daniel Zoran. Learneddeformation stability in convolutional neural networks. CoRR, abs/1804.04438,2018.

SFFAI简介

人工智能前沿学生论坛

（Student Forum on Frontiers of Artificial Intelligence）

是公益性的学术交流社区

欢迎对AI感兴趣的各位大佬们加入

分享机器学习、神经科学、认知科学、计算机视觉、自然语言处理等领域的前沿工作

希望SFFAI能够促进大家在各个AI分领域都能跟进前沿