【深度学习】可微编程：打开深度学习的黑盒子；深度学习在智能电网图像识别与故障检测中的应用

2018 年 6 月 28 日 产业智能官

编者按：深度学习自诞生之日起，即面临着黑盒智能、可解释性差等质疑，发展至今，不可否认地带来了一波人工智能的发展热潮，然而正面临研究热情渐褪、算法红利逐渐消失等问题，整个学术界都在讨论，后深度学习时代，谁将是主宰。

恰在此时，LeCun语出惊人地表示，“Deep Learning has outlived its usefulness as a buzz-phrase. Deep Learning est mort. Vive Differentiable Programming!” 一方面将对深度学习的质疑推向了高潮，另一方面奠定了可微编程的地位。

可微编程，作为衔接传统算法与深度学习之间的桥梁为深度算法提供可解释性，将成为打开深度学习黑盒子的一大利器。

本文中，来自四川大学的彭玺研究员，将为大家介绍后深度学习时代的新主宰：可微编程。

彭玺深度学习大讲堂

今天的汇报将从上面四个部分展开。

第一部分，介绍一下可微编程的一些相关的概念。

第二部分，介绍我们的第一个工作。现在大多可微编程是把优化过程展开，转换成回复式神经网络。而我们这项工作也是把优化过程展开，发现能够得到新的长短期记忆，再从可微编程角度，找到与长短期记忆网络的连接。

第三部分，介绍我们的第二个工作。现有的绝大多数可微编程的工作都是基于优化的过程展开，然后寻找它和神经网络之间的关系。而我们这项工作是从目标函数进行变形得到一个前向式神经网络。

第四部分，是我们对于这些研究问题的一些思考。

首先介绍一下可微编程是什么呢？简单来说，就是把神经网络当成一种语言，而不是一个简单的机器学习的方法，从而描述我们客观世界的概念以及概念之间的关系。这种观点无限地提高了神经网络的地位。

LeCun曾在facebook的文章里说:”Deep Learning Is Dead. Long Live Differentiable Programming!” (深度学习已死，可微编程永生)。

具体的可微编程和现有的深度学习、机器学习又有什么关系呢？这里有一个简单的对比，在上图中显示的三个实体之间发生的三项关系。目前最流行的方法是用深度学习提取特征，然后结合机器学习的一些方法来解决实际当中的一些问题，也可以反过来用深度神经网络拿来直接生成数据，也就是目前最火的生成式对抗网络。

但我们可以发现缺失了一块，也是目前可微编程做的主流工作。缺失的就是把现有的机器学习的方法转化成等价的神经网络，使得同时具有传统的统计机器学习方法的可解释性强以及深度神经网络性能较优等优点。

针对现实世界中的一些问题，传统的机器学习的方法思路是首先基于一些假设或者先验知识（比如稀疏编码等），将其形式化成目标函数，再对其进行优化求解。但当得到一个新的目标函数时，我们还需要研究目标函数数学上的性质对其进行优化，如目前最流行的优化方法--凸优划。

但是这样做饱受诟病的一个原因就是可解释不强。那可微编程可以做什么？其实就把神经网络直接当成一种语言，直接用于替代问题的描述或者说抽象化问题。这样做的好处显而易见，首先，它易于优化。只需要一个SGD或者SGD的变种，而不需要发展出非常复杂的优化的算法。此外，它还易于计算。并且，它也能做端到端的学习。

在神经网络以深度学习为标志复出之后，最早的可微编程的工作应该是Yann LeCun的ISTA。求解稀疏编码这个目标函数的优化方法有非常多，ISTA是其中非常有名的一个。上图中间红框标注的公式就是ISTA的核心，具体细节可以阅读文章《Learning fast approximations of sparse coding》。

观察上图中红色方框的公式，可以看到Z是依赖于前一步的Z值。这在数学上就等价于一个动力学系统或者一个迭代过程，而动力学系统本质上就是回复式神经网络的数学本质。因此，进一步地把右下角公式简单地变形等价成RNN，这是神经网络复出以来最为知名的一个可微编程的工作。

随后有很多的进展，比如2016年NIPS上的文章《Attend, Infer, Repeat: Fast Scene Understanding with Generative Models》关于生成模型的工作，这项工作也是目前比较热门的研究。

另外，在2015的ICCV上《Conditional Random Fields as Recurrent Neural Networks》文章中提出，把条件随机场的求解变形成了循环神经网络的相关运算，在图像语义分割上实现了突破。

在2016的TPAMI上《Learning to Diffuse: A New Perspective of Designing PDEs for Visual Analysis》文章中，提出的PDE工作在多个任务视觉上取得很好的效果。

在2016的TIP《Learning Iteration-wise Generalized Shrinkage-Thresholding Operators for Blind Deconvolution》里，针对盲卷积这个问题，发展出能够实现稀疏编码的回复神经网络。

在2016的IEEE TPAMI的《Trainable Nonlinear Reaction Diffusion: A Flexible Framework for Fast and Effective Image Restoration》文章中，对图像重构工作进行了这方面研究。

在2016年的AAAI文章《Learning Deep ℓ0 Encoders》中对0范数的优化问题，进行变形和等价建议的回复式神经网络。

在2015年TPAMI文章《Learning Efficient Sparse and Low Rank Models》中，对使用深度神经网络来实现稀疏模型和非负矩阵分解之间建模的回复式神经网络。

将这些研究进行归纳总结，就是把一些现有的统计机器学习方法，特别是现有的优化过程展开，形成一个简单的神经网络，且其中大多都是一个简单的回复式神经网络。从而使它能享有传统机器学习的优点，比如端到端学习，同时兼具易于优化以及高可解释性等优点。

我相信这样介绍大家可以有一个直观的概念。目前可微编程就是对传统的机器学习的一个逆向的过程，由于传统的机器学习的结构非常清晰，对逆向过程可以产生的神经网络，就可以知道哪一个激活函数的作用是什么，每一层的输出、目的是什么，这也是现有的深度学习方法所不具备的优势。

下面给大家介绍一下我们的第一个工作。我们这项工作从可微编程出发，来研究稀疏编码的优化方法—ISTA 。

目前，常见的对L1范数优化的方法具有四个局限性：

第一，在优化过程中，对于每一个变量的更新都是采用固定的学习率。所以没有考虑优化变量的每个维度之间的不同。

第二，这些优化过程并没有考虑历史信息。但是在优化这个研究邻域里已经有大量的工作证明如果考虑历史信息，能够加速算法的收敛。

基于这两点不足，我们提出了自适应的ISTA算法。

还有两个不足是什么呢？

第三，在稀疏编码推理过程中，计算代价很高。

第四，稀疏表示矩阵计算和字典学习是两个分隔开的步骤。但现在流行端到端的训练，也就是同时优化步骤，这样做可能会产生次优的解。

而这两个不足，正好是可微编程能够克服的问题。因此基于这些问题，我们对自适应的ISTA变形和展开提出新的神经网络——SC2Net。

左边是ISTA的关键的优化步骤，基于此，我们引进了动量向量（i(t),f(t)）。这就是标准的受益于现代的优化的一些相关的方法，通过引入这两个量，从而解决非自适应更新问题和没有考虑历史信息的不足。更进一步来看，这里存在一个问题，i(t),f(t)如果是两个向量的话，只能确定它的值。使用传统的机器学习方法进行训练，我们人为指定它的值。在研究中，发现可以把这两个向量当成两个变量从数据中学习，就产生了我们提出的自适应ISTA。

同时，我们还发现这种自适应ISTA可以等价于新的长短期记忆神经网络。具体来看，我们可以认为i和f是等价于LSTM中的input gate 和output gate。但是需要注意的是，和经典的LSTM相比，自适应的ISTA是没有output gate。

基于以上，我们就组建了Sparse LSTM，并且构建了相应的神经网络结构。

接下来，展示我们的实验结果。在无监督和有监督的特征提取的情况下，对网络的分类性能进行验证。

接下来还进行图像重构，图中显示的是一个重构的误差，越黑就代表误差越小。

我们还做了视频当中的异常事件的检测，给定一个圈，在圈中的都是正常事件，不在圈中的就是异常事件。接下来使用稀疏重构系数作为指标，找到一定阈值，在这个范围内的都是正常事件，而不在其中的就是异常事件。

通过实验可以看到，我们的结果是目前是最好的异常事件检测算法。

最后简单地概括一下，相对现有的可微编程，我们是将优化的过程或者说具体的基于LSTM优化的过程和长短期记忆网络，最后掌握了他们之间关系。这对可微编程有一些促进的作用，也可以从另外一个角度理解长短期记忆网络。

刚才我们得到的网络和标准的只有一个区别，就是我们没有Output gate。

相关的代码公开，大家可以扫描上图中的二维码。

第二个工作较之前更进一步，是在聚类这个背景下来扩展，把k-means这个聚类算法转化成为一个前向式记忆网络。不同于现有的可微编程的方法，它是从优化的角度出发，我们直接把k-means聚类算法的目标函数直接进行变形，然后建立对应的神经网络模型。

K-means是什么？

它是在机器学习，计算机视觉，数据挖掘中最为知名的一个算法。主要是利用数据之间的相似性或者不相似性，将数据分为多个簇。最近一二十年，整个聚类的研究领域主要关注的是高维数据的聚类，本质上就是机器学习的共性问题——线性不可分的问题。

为了解决这个问题，基于核聚类算法，谱聚类，子空间聚类方法，以及近期基于深度神经网络的聚类方法，这些方法都是在解决这个线性不可分的问题。

现有的高维聚类方法可以简单地概括成这个图。它们都是用表示学习的方法将不可分的数据投影到另外一个线性可分的空间中，然后再进行聚类。而且现有的研究工作主要都是关注在如何学到一个好的表示。大家都知道，目前深度学习已经成为最为有效的表示学习方法之一，一定意义上可以把“之一”去掉，特别是在数据量较多的情况下。

因此，我们就认为如果表示学习能够用深度神经网络来解决，我们是不是要考虑更多的研究能够实现聚类的神经网络。但是让我们惊讶的是，目前非常少的工作研究能以一个神经网络来实现聚类的，寥寥可数，比较知名一点的比如说自组织映射。

受这个观察的启发，我们思考计划从可微编程的角度对经典的算法进行变形，从而形成一个新的神经网络，从而解决上述的痛点。

这里的公式是k-means的目标函数，其中x是输入，Ω是第j个聚类的中心。我们最终的目标是最小化不同类别之间的相似性，最大化相同类别之间的相似性。

通过对k-means目标函数简单的变形，其实本质上只是把标签只能分配到某一个聚类空间的约束去掉，转变成了输入Xi在第j个聚类中心的概率。

如右图所示的简单变形得到公式（6）和（7），并且我们发现这两个公式是可以等价为一个简洁的前向式神经网络。

如果大家只看左边的神经网络，大家可能会觉得非常不稀奇，好像就是一个很简单的Sigmoid函数，再加上一个隐含层的神经网络。但是如果结合右边的公式来看，就会发现，这么简单的神经网络是等价于K-means的。

我们在相关的一些数据集上进行验证，比如说我们使用数据mnist和CIFAR10验证神经网络，取得了非常好的效果。

接着我们使用CIFAR100数据的20个子集进行验证，也是取得很不错的结果。

同时我们还考虑使用CNN来发现特征，可以得到超过93%的距离精确度。所以得出一个结论，我们的算法对于距离中心的初始化方法是非常棒的。

这个工作和现有的可微编程不同主要是两点：

第一，我们的研究思路是从目标出发，而不是从优化过程出发进行研究

第二，我们得到的是前向式神经网络，而不是回复式的神经网络。

接下来给大家分享一下我和我的合作伙伴的一些思考。

目前，深度学习的研究主要是对通过对一些算法的性能指标不断地试错，最后确定整个网络的结构以及相关的超参，这也是深度学习最为诟病的一点。

现在深度神经网络已经占据了绝对的优势，可微编程提供了从高解释性的角度去做这件事，它是将神经网络作为一种语言，将传统的算法转化成神经网络以后，一定程度上缓解了一些深度学习的不足。

下一步可微编程做什么？现在的可微编程是对传统的继续学习方法的等价或者一种替代物。从问题的描述，再到问题的建模、求解，这是一个很复杂的过程。如果我们对传统的学习的方法，在一定的假设和前提下已经有建好的建模，我们建立等价的神经网络，其实就能走出最容易的一步。

在未来，如果我们真的要贯彻可微编程，就是把它当成一种语言。神经网络应该更进一步，应该直接对问题进行建模，也就是对我们的物理现象进行建模，并且传统的统计机器学习方法有一些先验知识，进而解决我们的一些实际问题。

可能这是更接近于做人工智能这个领域的一个更贴切的思路。

深度学习在智能电网图像识别与故障检测中的应用

赵振兵深度学习大讲堂

近年来，计算机视觉领域中尤其是深度学习技术，在人脸识别、智能驾驶、场景分类等任务中获得了非常广泛的应用，也是各路英豪逐鹿之地。本期大讲堂则对另外一个虽鲜为人知，但时刻在我们身边，且极具价值与挑战性的场景：电力系统自动故障检测进行介绍，分享深度学习这一新兴技术与传统行业碰撞出的激情火花。

一、我们用图像处理与深度学习做什么

在特斯拉设想的大规模无线输电系统普及之前，目前我国的电力系统仍是由发电、输电、变电、配电等环节构成。其中保障输电线路的可靠性是智能电网建设的重要内容。而绝缘子是输电线路中极其重要且大量存在的部件(据不完全统计，截至2009年10月我国在线运行绝缘子共23亿片)，起到电气绝缘及机械支撑作用；同时又是故障多发元件，其表面污秽、裂纹、破损等表面缺陷严重威胁电网的安全运行。据统计，由绝缘子缺陷引起的事故目前已成为电力系统故障中所占比例最高的。因此对绝缘子表面缺陷进行智能检测，及时完成故障诊断尤为重要。下图是输电线路场景图像，左图是常见的高压电力输电线路杆塔，右图是电力检修人员正在660kV线路上带电对绝缘子进行检修(图片来自国家电网公司)。

下图是基于直升机与无人机的输电线路巡检平台。空中飞行平台(如直升机、无人机等)巡线，由于其具有高效、准确和安全等特点，近几年已成为输电线路巡检的重要方式，利用平台上装载的摄像头获取了大量航拍图像，其包括了有效的绝缘子目标信息；若对这些海量视频数据采用工作人员肉眼判读而没有自动图像分析功能的话，易发生严重的检测误判或漏判情况，难以准确发现绝缘子存在的安全隐患，且极大地增加了检修成本。因此利用图像处理技术研究绝缘子表面缺陷的自动检测方法是非常必要的，可提高其检测的准确性，并使空中飞行平台巡线系统更为高效和智能。

基于航拍图像的绝缘子缺陷检测方法，目前仅有一些初步研究，很多是在实验室环境下进行，具有很大局限性，并没有考虑绝缘子图像的复杂背景等因素。来源于输电线路的航拍图像具有如下特点：

①绝缘子与导线、开关、杆塔、金具等相连，或相互遮挡；

②来自视频中的图像分辨率相对较低；

③图像背景十分复杂，经常包含森林、山川、田地、房屋、河流、道路等不同自然景物，且随着四季的更迭背景外观会随时改变；

④巡检过程中，目标物体的相对运动以及摄像设备的“振动”会引起图像的退化现象；

航拍绝缘子图像如下图所示，表示了不同传感器所获得的航拍图像，左图是可见光图像，右图是红外热像图像。

这些特点导致绝缘子目标在图像中不够突出，且增加了处理难度，很难获得具有适用性强的自动检测方法。所以直接用现有算法检测航拍图像中的绝缘子表面缺陷，不能获得满意的效果，必须结合绝缘子图像的特性，从理论体系和技术方法等方面对其自动检测方法进行更深入的探索和研究。

二、基于深度学习的绝缘子状态自动检测系统的构建

电力输电线路绝缘子状态检测任务可分为两大方面，首先为目标检测，即在图像中定位出绝缘子的目标，其中要克服背景复杂，图像分辨率低等不利因素；第二，就是对其状态进行分类，如表面污秽、裂缝、破损等状态。如何提取出能够充分辨别出故障的特征是目前研究的热点。

一

基于先验形状的绝缘子定位方法

从复杂背景航拍图像中定位出绝缘子串是对其表面缺陷检测的必要前提，我们在对大量航拍绝缘子图像进行实验分析的基础上，挖掘了绝缘子串的先验形状统计特性，提出了基于方向角检测与二值形状特征的定位方法(Localization of multiple insulators by orientation angle detection and binary shape prior knowledge)[1]，发表于：IEEE Transactions on Dielectrics and Electrical Insulation。绝缘子是由多个具有相似凹凸曲线轮廓的伞盘组成，以多条直线段近似绝缘子伞盘轮廓曲线，则多条直线段间仍保持相似性。直线段的交点可被提取为形状特征点。位于绝缘子伞盘上相对位置相同的形状特征点近似在一条直线上，且该直线与绝缘子主轴方向平行，即为共线原则。该原则可被用来提取绝缘子可能的主轴方向。

遍历所有的轮廓线后，得到所有可能的主轴方向，解决了航拍图像中不同主轴方向的多绝缘子的方向检测问题。紧接着利用我们所提出的三条绝缘子二值形状先验约束，对图像进行像素级去除与保留，因此完成了航拍图像中绝缘子的定位，实验过程与结果如下图所示：

二

基于中层特征构建的红外图像中绝缘子定位方法

由于红外图像成像机理的独特性，对于红外图像目标识别需要考虑其分辨率低，形状特性不显著的特性。我们提出了利用二进制鲁棒尺度不变特征点(Binary Robust Invariant Scalable Keypoints, BRISK)对绝缘子进行中层特征建模，构建更具有区分性的复杂特征描述。该工作(Representation of Binary Feature Pooling for Detection of Insulator Strings in Infrared Images)[2], 已录用于：IEEE Transactions on Dielectrics and Electrical Insulation。

利用局部不变特征，结合VLAD对描述子进行Aggregation可以得到一个较HOG, LBP等更具有不变性的特征表示。由于BRISK为二进制描述子，相比SIFT, SURF等浮点型描述子，采用Hamming距离进行计算可以大大节约计算资源。我们还构建了小规模的红外图像绝缘子的数据集，部分正负样本图像如下图所示。

利用所提出的特征构建方法，提取中层特征进而对线性SVM二分类器进行训练。并将训练得到的分类器嵌入多尺度滑动检测框架，从而可以实现对目标的定位。

以上所介绍的工作皆基于传统的CV方法，近年来，深度学习尤其是卷积神经网络(DCNN)在图像识别所取得的成果令人瞩目，我们也对深度学习进行了尝试。

三

基于深度特征的绝缘子状态检测方法

绝缘子定位方法能够精确定位绝缘子串，且误定位率低，耗时短。我们将定位后的绝缘子串分割为多个伞盘图像，因此可以判断每个伞盘的故障类型。由于我国幅员辽阔，南北气候差异大，不同环境、不同电压等级所采用的绝缘子类型也不同，如下图（不同材质的绝缘子，从左到右依次为复合型，玻璃型，陶瓷型）所示，各种绝缘子具有不同材质，形状。传统的手段就需要分别为其设计诊断算法，目前基于手工特征的绝缘子状态诊断方法鲁棒性差，计算复杂及处理的绝缘子故障类型单一。受到深度特征独特性的启发，我们率先将DCNN应用到输电线路绝缘子的故障诊断中，通过深度网络来发掘绝缘子故障的相应表达。

将定位后的绝缘子图像二值化，并按行扫描绝缘子图像，统计每行绝缘子图像的像素点数，如下图（

绝缘子串分割）所示，以像素点数的波谷处为分割线，分割绝缘子图像为多个绝缘子伞盘图像。

我们以正常、破损、裂纹及污秽等多种绝缘子伞盘图像建立航拍绝缘子伞盘图像库。相比常见的人脸、场景等数据库，该数据库规模更小，无法满足训练或者fine-tuning的需求。因此利用ImageNet预训练的模型进行特征抽取再进行分类不失为一种简单可行的方案。

我们提出了一个简单的基于DCNN的绝缘子状态判别方法(Multi-patch Deep Features for Power Line Insulator Status Classification from Aerial Images)[3], (IJCNN 2016)。由于我们的数据库规模较小，因此采用pre-trained DCNN model作为特征提取工具，模型采用的是AlexNet。对于绝缘子定位仍采用之前的方法，利用提出的Orientation Angle Detection and Binary Shape Prior Knowledge (OAD-BSPK)[1] 对目标进行定位。然后进行深度特征提取，相比于直接利用一张图片进行forward 计算，我们在原图上随机生成10个patch，对每个patch进行forward 计算，并对得到的特征进行求均值操作。对于得到的multi-patch特征，训练SVM分类器。

整个方法流程如下图（航拍图像绝缘子定位、状态判别流程）所示，仅利用DCNN网络作为特征提取器，测试结果远远超过BoF等手工特征，故障分类准确率由91.83%提升至98.71%。

通过提取多个patch的特征进行pooling可以提高故障诊断的准确率，然而实际的绝缘子目标在输电线路中具有不同的角度，形状，对于仅仅利用fully connected layer中的特征并不能充分表达目标属性，我们最近也在中间卷积层中对特征进行理解与建模，充分利用深度模型多层之间的联系。我们可视化了一些中间结果，抽取不同卷积层的feature map进行分析，不同层中的神经元对于绝缘子目标有着不同的相应，神经元的激活响应表现出稀疏性与选择性，下图为conv4与conv5层部分feature map的可视化结果。

在故障诊断之前的目标定位仍采用形状等底层特征，对于此，我们也将利用深度学习来对绝缘子进行目标检测，然后再进行基于深度学习的故障分类，相关的工作也将在不久之后进行介绍。目前，将深度学习应用于电力，机械等传统工业领域仍有许多的问题需要解决，对于不同场景下数据分布之间的差异，深度模型的运行效率等问题仍需要进一步研究。

三、未来深度学习在电力系统智能检测中的应用前景

随着智能电网建设进一步深化，利用无人机、机器人等手段对输电线路进行智能巡检将得到更广泛的应用。由于电力行业的特殊性，对于智能化水平要求的进一步提高，这也对设备识别准确性与实时性提出了更高的要求，所以深度学习在电力系统自动故障检测中必大有可为。