【深度学习】深度学习的几何观点:流形分布定律、学习能力的上限、概率变换的几何观点

2018 年 6 月 23 日 产业智能官

深度学习的几何观点(1) - 流形分布定律

 顾险峰 老顾谈几何

(最近,哈佛大学丘成桐先生领导的团队,大连理工大学罗钟铉教授、雷娜教授领导的团队应用几何方法研究深度学习。老顾受邀在一些大学和科研机构做了题为“深度学习的几何观点”的报告,汇报了这方面的进展情况。)


深度学习技术正在深刻地改变着人类的历史进程,它在图像识别、语音识别、自然语言处理、文本翻译等几乎所有信息科学领域,都带来了翻天覆地的革命。我们这个时代所面临的最为根本的问题之一就是为深度学习的有效性给出一个合理的答案。


纵观人类历史的历次技术革命,火的使用,青铜器的制作工艺,农业的大规模普及,机械的应用,内燃机的发明,电力电气工业的成熟,电子计算机技术的推广,信息工业的蓬勃发展等等,无一不是建筑在深刻的自然科学原理之上的。虽然当时人类可能主观上并没有真正意识到,但是在客观上都是顺应了自然,可能是物理、化学、或者生物方面的基本定律。那么深度学习的巨大成功究竟归功于哪一条自然定律?


我们认为,和历史上的历次技术革命不同,深度学习的成功是基于两条:数据本身的内在规律,深度学习技术能够揭示并利用这些规律。数据科学(或者信息科学)中的基本定律(或者更为保守的,基本假设)可以归结为:


1. 流形分布定律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。

2. 聚类分布定律:这一类别中不同的子类对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。


图1. 流形的定义。


深度学习的主要目的和功能之一就是从数据中学习隐藏的流形结构和流形上的概率分布。


关于聚类分布定律,目前有相对完善的理论基础-最优传输理论,和较为实用的算法,例如基于凸几何的蒙日-安培方程解法【2】,这些方法可以测量概率分布之间的距离,实现概率分布之间的变换【3】。关于流形分布定律,目前理论发展不太完备,很多时候学习效果严重依赖于调参。但是很多实际应用问题,都可以用流形的框架来建模,从而用几何的语言来描述、梳理,用几何理论工具来加以解决,进而有望从含混模糊的经验性试错,进化到思路清晰的定量研究。


流形结构


流形是拓扑和微分几何中最为基本的概念,本质上就是很多欧氏空间粘贴在一起构成的空间。如图1所示,一个流形(manifold)是一个拓扑空间,被一族开集所覆盖,对于每个开集存在一个同胚映射被称为是坐标映射,被称为是参数域。构成一个局部坐标卡(local chart),所有局部坐标卡构成流形的图册(atlas),。在交集上,每个点可以有多个局部坐标,在局部坐标间存在变换。从流形到坐标域的变换被称为是参数化,其逆变换,从局部坐标到流形的变换被称为是流形的局部参数表示。如果流形嵌入到欧氏空间中,则欧氏空间被称为是背景空间。


例一:我们试举一例,嵌在三维欧氏空间中的单位球面是最为简单的二维流形,其局部参数表示为

这里球面是流形,三维欧氏空间是背景空间,是局部坐标。参数化映射可以写成


在深度学习中,有关流形的这些基本概念都有相应的术语,我们稍作翻译:流形上的一个点被称为是一个样本;参数域被称为是隐空间或者特征空间;参数化映射被称为是编码映射;流形的局部参数表示被称为是解码映射;点的局部坐标被称为是样本的编码或者特征深度学习的主要目的和功能之一就是学习编码映射和解码映射




图2. 流形和参数化映射。


例二:如图2所示,米勒佛曲面是三维空间中的二维流形,参数化映射将曲面映射到平面圆盘。这一映射的逆映射给出了曲面的参数化表示。这里,所有的映射都是用分片线性映射来逼近的。注意,这里参数化映射并不唯一,这会带来隐空间概率密度的变化,后面我们会对此进行详细讨论。


图3. 所有人脸图像符合流形分布定律。



例三:我们考察所有的rgb彩色图像所构成的空间,记为背景空间。背景空间中的任意一个点是一张rgb图像。空间中所有人脸的图像所构成的子集记为,我们来分析一下人脸图像集合是否符合流形分布定律。一张人脸照片主要取决于如下条件:人脸的几何形状,皮肤的纹理特征和施加的化妆品,动态表情,光照条件,相机的内外参数等,人脸几何形状由几十条基因所决定。这些因素渐变时,人脸照片也是渐变。由此,我们有理由认为所有人脸图像分布在某个低维流形附近。当然,由于随机噪音的存在,我们只能说所有人脸图像分布在附近,而非精确地落在上。我们的实验表明,人脸图像流形的隐空间大概有100维左右。


那么在现实中,我们如何学习人脸图像构成的流形呢?这里所谓的“学习”意味着什么?答案是用人脸图片的样本集来训练深度神经网络,我们可以得到人脸图像流形的参数化映射(编码)和局部参数表示(解码)。



编码、解码器



图4. 自动编码解码器。


自动编码器(autoencoder)是非常基本的深度学习模型,用来学习流形结构。如图3所示,自动编码器是一个前馈网络,输入和输出维数相等,输入输出都是背景空间。中间有一个瓶颈层,瓶颈层的输出空间为特征空间。网络关于瓶颈层对称,左侧网络用于表示编码映射,记为;右侧网络用于表示解码映射,记为。损失函数等于输入、输出图像的范数。我们在流形上稠密采样,得到训练样本集,训练网络,

.

由此,我们得到了编码映射和解码映射,解码映射就是流形的一个参数表示。我们用重建的流形来逼近数据流形


一旦我们掌握了流形在手,我们可以完成很多传统方法无法想象的应用,也可以革新很多传统方法所涉猎的经典应用。下面我们通过几个实例来彰显流形思维框架的威力。


生成模型(Generative Model)


图5. 生成模型。


生成模型是深度学习的一个典型应用,如图5所示,输入一张低维的白噪音,输出一张逼真的人脸图像。这在传统框架下是匪夷所思的:我们妙手空空,平白无故地变出一张人脸!但在流形框架下非常简单。


我们已经训练好了网络,得到了流形的参数表示,一张白噪声图像就是一个局部参数(编码),其解码后的像在人脸图像的重建模型上,因而是一张人脸图像。我们并非妙手空空,而是拥有了丰富的先验知识:所有人脸图像构成的流形,这一流形被其参数化映射所表示,而这一映射被神经网络的权重所编码。


当然,生成图像的质量由很多因素所决定,最为重要的有两个:重建流形对数据流形的逼近精度;白噪声图像是否在参数域中,即是否在编码映射的像集内。后面,我们会对这两个问题进行深入探讨。


图像去噪(denoising)


图像去噪是图像处理的经典问题。基于信息论,我们将带有噪音的图像进行傅里叶变换,在频域滤波,去除高频分量,然后再进行傅里叶逆变换,得到去噪图像。因为噪声往往分布在高频部分,因此这一方法比较奏效。这种经典方法比较普适,和图像内容无关。


图6. 图像去噪的流形解释。


那么用流形框架如何解释图像去噪呢?如图6所示,假设所有清晰人脸图像构成了一个流形。一张带有噪声的人脸图片不在清晰人脸图像流形上,但是在其附近。我们将向流形投影,垂足为,即清晰人脸图像流形距离最近的点。那么,我们将作为去除噪声后的结果。换言之,我们将图像去噪理解成几何投影


图7. Autoencoder图像去噪结果。


图7显示了基于几何投影思路的图像去噪效果。给定一张带有噪音的人脸图像,其编码为,然后再解码,得到重建流形上的一点,即为去噪后的图像。

图8. 左帧,输入流形和噪声点;右帧,噪声点被投影到重建的流形上。投影由Autoencoder实现。


这种方法不问噪声的形成机制,适用于各种噪声。但是这种方法严重依赖于图片内容。这里我们进行人脸图像去噪,因此需要清晰人脸图像流形。如果,我们将带噪声的人脸图像向清晰猫脸图像流形投影,所得结果不再具有任何实际意义。


这显示了用深度学习方法去噪的某种局限性,首先我们必须拥有相应的流形,其次不同类型的图像,需要不同的流形。猫脸流形无法应用于人脸图像,反之亦然。这种局限诠释了深度学习仍属于弱人工智能范畴


年龄变换


图9. 基于深度学习的年龄变换(黄迪教授)。


如图9所示,给定一张人脸图像,生成这张脸二十年后的图像,或者倒推这张脸二十年前的图像,这种变换我们称之为人脸图像年龄变换。对于传统方法而言,人脸图像年龄变换是难以完成的任务。用深度学习的流形框架,我们可以给出清晰的解决方案。


首先我们学习所有二十岁的人脸图像流形,然后再学习所有四十岁的人脸图像流形,表示成各自的编码、解码映射:

,

同时我们学习两个流形之间的映射:


这里隐空间之间的映射可以用一个深度神经网络来表示,每一个训练样本由同一个人二十岁和四十岁的一对照片所组成。在实际使用中,输入一张青年人的照片,输出,作为同一个人中年时期的照片。



手写体数字识别


图10. 手写体数字流形。


如图10所示,我们考察所有手写体数字二值图像构成的流形,左帧是真实数据,右帧是生成数据。0到9这十个数字在此流形上定义了十个不同的概率分布。我们用编码映射将流形映射到隐空间,编码映射将这十个分布“推前”到隐空间上。为了可视化,我们将隐空间定义为二维平面,如此得到十个概率分布。


图11. 手写体数字在隐空间的概率分布。


图11显示了不同数字在隐空间的概率分布,这种流形+概率分布可以对知识进行更加详尽的表述,从而用于识别分类等问题。


深度学习有效性的几何解释

流形结构  根据数据科学的流形分布定律,自然数据背后隐藏着流形结构,深度学习方法可提取这些流形结构,并用神经网络来表达流形间的映射,给出流形本身的参数化和参数表示。这些流形结构和其上的特定概率分布是整体先验知识的有效表示,正是因为具备这些先验知识,很多视觉和机器学习的问题能够被有效解决。 流形能够表达一类数据的整体先验知识,传统方法只能利用局部较少的先验知识

方法论的灵活性  传统方法依赖于严格的因果关系,往往用偏微分方程来表达自然规律。很多相关性可以用概率分布来表述,用深度学习可以习得。传统方法需要自变量和因变量之间精确的数学关系,流形框架下的深度学习只需要猜测流形的存在性和大致维数就可以学出流形结构。

非线性拟合能力  我们可以看到很多计算机视觉、机器学习高层次(high level)的问题可以用流形、流形间的映射来描述。后面我们可以看到,概率分布之间的变换可以归结为流形间的映射。流形的局部参数表示,流形的参数化,流形间的局部映射都归结为欧氏空间之间的非线性映射 。深度学习的成功也依赖于深度神经网络拟合这种非线性映射的能力。

学习能力的观察


那么,深度神经网络学习流形的能力究竟如何?我们考察一个低维流形的简单例子,见微知著,从中可以观察到一些富有启发的现象。


图 12. 弥勒佛曲面,输入流形。


图13. 隐空间表示和胞腔分解。


图14. 重建流形。


我们假设背景空间是三维欧氏空间,流形是米勒佛曲面,如图12所示。我们在弥勒佛表面上稠密采样,然后训练一个自动编码器,得到编码映射和解码映射。编码映射将曲面映射到隐空间即二维欧氏空间,如图13所示;解码映射将隐空间表示映射回背景空间,得到重建流形,如图14所示。我们采用ReLU作为激活函数,编码解码映射为分片线性映射。编码映射将背景空间分解为很多胞腔,在每个胞腔内编码映射为线性映射,图13右帧画出了背景空间的胞腔分解。我们从图中可以看到重建流形比较精确地逼近了原始的输入流形,几乎保留了所有的几何细节。为了达到这一理想效果,艰苦的调参不可避免。而这正是深度学习的困难所在:缺乏理论指导的实验性调节超参数。


仔细观察这个编码、解码过程,我们看到重建曲面在很大程度上较好地逼近了输入曲面,保持了细微的几何特征,参数化映射建立了整体同胚。由此,引发了下面的问题:


  1. 如何从几何上刻画一个深度神经网络的学习能力?是否可以定义一个指标来明确表示神经网络学习能力的上限?

  2. 如何从几何上刻画一个流形被学习的难度?是否可以定义一个指标来明确表示这一难度?

  3. 对于任意一个深度神经网络,如何构造一个它无法学习的流形?


在下一讲中,我们对这些问题进行深入讨论。


小结


 我们认为,深度学习的成功应该归功于数据自身具有内在的规律:高维数据分布在低维流形附近,流形上具有特定概率分布,同时归功于深度学习网络强大的逼近非线性映射的能力。深度学习技术可以从一类数据中提取流形结构,将整体先验知识用流形来表达,具体而言就是编码解码映射,隐含在神经元的权重之中。


深度学习的强大能力来源于某类知识的整体表达,而传统算法只能利用同一类别的局部有限知识。同时深度学习囿于底层流形的选择,很多算法移植性依赖于底层流形的替换。


深度学习的流形框架有助于模块化编程。我们可以想象,在未来深度的商品化硬件或软件模块将是各个类别的流形,和流形之间的映射,以及流形上概率密度之间的变换。底层的流形模块已经被AI公司训练完善,大规模产品化,用户只需要搭建这些模块就可以实现各种功能。




深度学习的几何理解(2) - 学习能力的上限

顾险峰 老顾谈几何


上一次博文(深度学习的几何理解(1) - 流形分布定律)引发很大反响,许多新朋老友和老顾联系,深入探讨学术细节,并给出宝贵意见和建议,在此一并深表谢意。特别是中国科学技术大学的陈发来教授提出了和传统流形学习相比较的建议;和熊楚渝先生提出通用学习机的X-形式理论等等。


图1. 巴塞罗那的马赛克(barcelona mosaic)兔子,揭示深度学习的本质。

(感谢李慧斌教授,赠送给我们艺术品,启发我们领悟深度学习。)



图2. 流形结构。


上一讲我们将深度学习成功的原因之一归功于流形分布定律:自然的高维数据往往集中在低维流形附近。深度学习的主要功能是学习流形的参数化映射(编码映射),和流形的参数化表示(解码映射,这里是隐空间,是背景空间,如图2所示;同时,学习流形间的映射,可以表示成隐空间之间的映射

很多时候,我们在关注流形的时候,也希望能够控制其上的概率分布,这可以由流形到自身的自同胚来实现:


流形是嵌入在背景空间之中,背景空间是欧氏空间,隐空间也是欧氏空间,因此所有流形间的映射最终都归结为欧氏空间之间的非线性映射:。深度神经网络的终极目标之一就是逼近欧氏空间之间的非线性映射



万有逼近定理


深度学习之所以有效,一个核心原因在于深度神经网络表示的函数能够以任意精度逼近连续函数,即所谓的万有逼近定理任意的连续函数,都可以被深度神经网络以任意精度逼近。


为了方便讨论,我们假设神经网络的激活函数为ReLU函数,定义如下:



我们将其推广到矢量输入函数


.


给定一个神经网络,带有k个隐层,,输入为维,输出为维,每个隐层具有个神经元。两个相邻的隐层之间有一个仿射映射,整个网络代表一个分片线性映射


.


万有逼近定理的基本证明思路如下:分片线性函数(piecewise linear function)在希尔伯特空间中稠密,因此能够以任意精度逼近任何可积的连续函数。任意分片线性函数可以分解为分片线性凸函数之和、之差,

,

这里系数是分片线性凸函数,

.

可以用两层神经网络来实现,隐层的激活函数为ReLU,


由此给定任意分片线性函数,我们都可以构造一个ReLU神经网络来加以实现。由此,对于给定的连续函数和误差界,我们都可以构造一个神经网络来逼近函数,其误差小于误差界。


但是,我们更为关心的是给定一个流形,给定一个深度神经网络,这个网络能否学习这个流形,即能否实现参数化映射,构造参数表示?



网络学习过程的观察



图3. 自动编码器学习一条螺旋线。


我们考察一个最为简单的例子,如图3所示,一条螺旋线嵌入在二维平面上(上行左帧),autoencoder计算了编码映射,将其映射到一维直线上(上行中帧),同时计算了解码映射,将直线映回平面,得到重建的曲线(上行右帧)。编码映射诱导了平面的胞腔分解(下行左帧),编码映射和解码映射的复合诱导了更为细致的胞腔分解(下行中帧),编码映射的水平集显示在下行右帧。


由此可见,ReLU深度神经网络的每个神经元代表一个超平面,将输入空间一分为二;众多超平面将输入空间剖分,然后将每个胞腔线性映射到输出空间,由此得到编码、解码映射的分片线性逼近。进一步,我们可以得到如下关键的观察:流形(螺旋线)被输入空间上的胞腔分解分割成很多片,每片流形所在的胞腔被线性映射到参数域上(一段直线),这个线性映射限制在流形上是拓扑同胚


我们将这一计算框架和有限元方法进行类比。线性有限元也是将空间剖分,然后用分片线性函数来逼近目标函数。但是,在有限元方法中,空间剖分和线性逼近是分离的两个过程。在深度学习中,这两个过程混合在一起,密不可分。有限元的剖分更加局部灵活,深度学习的剖分全局刻板。同时,两者都是基于变分法则,即在函数空间中优化某种损失函数。我们可以将每个神经元的参数归一化,那么深度网络的所有参数构成一个紧集,损失函数是网络参数的连续函数,必然存在最大最小值。在传统有限元计算中,人们往往寻求凸能量,这样可以保证解的唯一性。在深度学习中,损失函数的凸性比较难以分析。


从历史经验我们知道,有限元分析中最为困难的步骤在于设计胞腔分解,这直接关系到解的存在性和计算的精度和稳定性。深度神经网络所诱导的输入空间剖分对于优化过程实际上也是至关重要的,我们可以定量地分析网络的空间剖分能力。



网络学习的能力



图4. 米勒佛的参数化(编码)映射。


我们参看弥勒佛曲面的编码映射,如图4所示,编码映射(参数化映射)可以被ReLU神经网络表示成分片线性映射,右列显示了输入空间和参数空间的胞腔分解。


令编码映射为,给定一个属于背景空间的点,那么在计算时被激活的神经元集合记为,称之为点关于的活跃路径。两个点,如果对应的活跃路径(激活神经元集合)相同,则我们说这两点关于映射彼此等价。所有彼此等价的点构成了背景空间中的一个胞腔,胞腔为凸多面体。由此,诱导了整个背景空间的一个胞腔分解,记为。同样,编码映射和解码映射的复合也诱导了背景空间的胞腔分解。显然,的一个细分(subdivision)。我们用表示胞腔的个数。


其实,编码映射构造了一系列胞腔分解,后面的胞腔分解细分了前面的胞腔分解:

如果没有这些胞腔分解,那么神经网络所表达的映射只能是线性映射。正因为有了这些胞腔分解,才使得映射成为非线性映射。我们可以大致估算的胞腔个数,以此为网络学习能力的一个指标,我们称

为网络的分片线性复杂度Rectified Linear Complexity)。

图5.左帧编码映射诱导的空间剖分,和右帧重建映射映诱导的空间剖分 的一个细分。


图5显示了自动编码器在学习弥勒佛曲面时诱导的空间剖分,每个胞腔都是一个三维的凸多面体,被线性映射到二维参数平面上的一个低维凸多面体,可能是多边形,线段或者点。整体映射是连续的,并且限制在弥勒佛曲面上是整体拓扑同胚。这些胞腔的像显示在图4右下角。我们观察到,精细的空间剖分对于保证整体同胚性至关重要。


直接估计网络的分片线性复杂度相对困难,我们这里可以估计一个粗略的上界。我们考虑一个线性映射, 这个映射相当于在d维欧氏空间中用n个超平面划分,所得胞腔数目的最大值记为 。我们首先考察最为简单的二维情形-切披萨问题:假设n刀切下去,披萨最多被切成几片?一刀把披萨切成两片,假设第n刀将披萨切成片,那么第(n+1)刀的直线和前面n条直线相交,被分成(n+1)条线段,每条线段将中的某片一分二,由此我们得到递归公式

.

由此,我们得到切披萨公式

同样推理,假设将d维欧氏空间中用n个超平面划分,所得胞腔数目为 ,第(n+1)个超平面为(d-1)维欧氏空间,被前面n个超平面划分成个胞腔,每个(d-1)维的胞腔将 中的某个d维胞腔一分为二,由此我们得到类似的递归公式

由此,我们得到欧氏空间被超平面划分所得胞腔个数的上限为:

.


我们考虑一个前馈式神经网络,输入为维,输出为维,每个隐层具有个神经元,记为

,

那么所诱导的胞腔分解最多有个胞腔。复合映射所诱导的胞腔分解满足估计:

这一粗略估计给出了神经网络所表达的所有分片线性函数的片数的上限,亦即网络分片线性复杂度的上限。这一不等式也表明:相对于增加网络宽度,增加网络的深度能够更为有效地加强网络的复杂度,即加强网络的学习能力。



流形被学习的难度


我们再来考虑一个流形被学习的困难程度。给定一个m维的流形嵌入在n为欧氏空间中,。一个自动编码器将流形编码,即参数化,这里隐空间为m维的欧氏空间,编码映射限制在流形上为拓扑同胚,即连续双射,逆映射也是连续映射。这里,流形的嵌入和编码映射的同胚为流形的可被编码性(可被学习性)提出了苛刻的拓扑和几何要求。


如果流形的维数等于隐空间的维数,编码映射将流形同胚地映射到m维的欧氏空间的区域中,,因此的拓扑和m维的欧氏空间区域的拓扑相同,这为的拓扑增加很多限制。例如不可能是闭流形。在米勒佛的例子中,为曲面,和平面某个区域同胚,则曲面必为亏格为0的多联通曲面。这意味着目前的自动编码器只能学习拓扑简单的流形,或者只能学习拓扑复杂流形的一个局部。


图6. 克莱因瓶。


如果的维数小于隐空间的维数,情形更加复杂。比如背景空间为4维欧氏空间,流形为克莱因瓶(Klein bottle),隐空间为3维欧氏空间。那么根据矢量丛理论,克莱因瓶无法嵌入到三维欧氏空间,编码映射不存在。由此,流形的拓扑为其可学习性带来本质困难。目前,人们对于深度学习理论的理解尚未达到需要应用拓扑障碍理论的高度,我们相信未来随着深度学习方法的发展和完备,拓扑理论会被逐步引入。


图7. 可被线性编码和不可被线性编码的曲线。


其次,参数化映射为分片线性映射,限制在流形上为同胚映射,这个条件决定了学习难度。假设m维流形嵌入在n维欧氏空间中,如果存在整体线性映射,限制在流形上为拓扑同胚,那么我们说嵌入流形是线性可编码的


图7显示了一条嵌入在平面上的曲线,左帧的曲线线性可编码,右帧的曲线不可线性编码。假如右侧曲线线性可编码,那么的水平集是一族平行直线,每条直线被称为一根纤维。每根纤维和曲线至多只有一个交点。如果一根纤维和曲线相切,我们将纤维进行微小平移,则纤维和曲线有两个交点。曲线的切线方向涵盖了所有方向,因此我们无法找到一族平行直线,每根纤维和曲线至多只有一个交点。由此曲线不可被线性编码。


这个观察可以被推广,如果m维流形嵌入在n维欧氏空间中(m<n),并且流形可被线性编码,我们来求一个必要条件。假如流形可以被同胚地垂直投影到一个(n-1)维的超平面上,那么和此超平面垂直的直线和流形至多只有一个交点。我们在流形上取相异的两点,过此两点做一条直线,那么所有这种直线都不和超平面垂直。构造映射:

,

这里是积流形,是积流形中的对角线,

,

实射影空间,代表欧氏空间中所有的1维线性子空间(过原点的直线)。如果像覆盖整个实射影空间,那么流形向任何超平面投影都不是同胚,即流形不可被线性编码。


如图1所示,巴塞罗那的马赛克兔子,整体不可被线性编码。我们可以将流形分成很多片,每一片都是线性可编码,然后映分片线性映射来构造编码解码映射,如此分解所需要的最少片数被定义成流形的分片线性复杂度(Rectified Linear Complexity)


图8. Peano曲线。


我们可以构造分片线性复杂度任意高的流形。图8显示了经典的皮亚诺曲线。我们首先构造一个单元,如左帧左上角红色框内所示,然后将此单元拷贝,旋转平移,重新连接,得到左帧的曲线;如果我们将单元缩小一倍,重新构造,得到右帧所示曲线。重复这一过程,我们可以构造越来越复杂的皮亚诺曲线,直至极限,极限曲线通过平面上的每一个点。在迭代过程中,每一条皮亚诺曲线所包含的单元个数呈指数增长。每个单元都是线性不可编码的,因此亚诺曲线的分片线性复杂度大于单元个数。在迭代过程中,皮亚诺曲线的分片线性复杂度呈指数增长。经过修改,Peano曲线可以经过任意维欧氏空间中的任意一点。我们将Peano曲线直积上高维球面,就可以构造(k+1)为流形,这种流形具有任意高的复杂度。


如果一个ReLU神经网络能够对一个嵌入流形进行编码,那么网络的分片线性复杂度必定不低于流形的分片线性复杂度。通过以上讨论,我们看到对于固定组合结构的神经网络,其分片线性复杂度可以被组合结构所界定,我们可以构造一个流形其复杂度超过网络复杂度的上界。由此我们得到结论:给定一个具有固定组合结构的神经网络,存在一个流形,此网络无法学习(编码)这个流形。虽然大家都在直觉上相信这一结论,但是严格的数学证明并不普遍。这里我们将人所共知的一个基本信念加以数学证明。




图9. 不同的学习效果:左帧,输入流形;右帧,Autoencoder重建的流形。


在实际应用中,深度学习具有很大的工程难度,需要很多经验性的技巧。特别是深度学习网络的学习能力取决于网络的超参数,如何设计超参数,目前主要依赖于经验。如图9所示,我们用autoencoder编码解码弥勒佛头像曲面,上面一行显示了输入输出曲面,重建后的曲面大体上模仿了米勒佛的总体形状,但是失去具体的局部细节。在下面一行,我们加宽了网络,修改了超参数,重建曲面的逼近精度提高很多。




小结


ReLU深度神经网络用分片线性函数来逼近一般的非线性函数:每个神经元定义一个超平面,所有的超平面将输入空间进行胞腔分解,每个胞腔是一个凸多面体。映射在每个胞腔上都是线性映射,整体上是连续的分片线性映射。编码映射限制在输入流形上是拓扑同胚。


深度神经网络将输入空间分解的最多胞腔个数定义为网络的分片线性复杂度,代表了网络学习能力的上限;流形需要被分解,每一片可以被背景空间的线性映射所参数化,这种分解所需的最少片数定义为流形的分片线性复杂度。一个网络能够学习一个流形的必要条件是:流形的复杂度低于网络的复杂度。对于任意一个网络,我们都可以构造一个流形,使得此网络无法学习。


目前所做的估计非常粗糙,需要进一步精化;对于优化过程的动力学,目前没有精细的理论结果,未来需要建立。


在深度学习的应用中,人们不单单只关心流形,也非常关心流形上的概率分布。如何通过改变编解码映射,使得重建概率分布很好地逼近数据概率分布,使得隐空间的概率分布符合人们预定的标准分布?这些是变分编码器(VAE)和对抗生成网络(GAN)的核心问题。下一讲,我们讨论控制概率分布方法的理论基础【2,3】。




深度学习的几何理解(3) - 概率变换的几何观点

顾险峰 老顾谈几何



昨天(2018年6月15日),严东辉教授邀请老顾在泛华统计协会( International Chinese Statistical Association)举办的应用统计会议(ICSA2018 Applied Statistics Symposium)上做了“深度学习的几何观点”的报告。会议上Eric Xing教授给出报告,用统计概率的观点统一了变分自动编码器(VAE,Variational Autoencoder)和生成对抗网络(GAN,Generative Aderseral Network)。老顾用几何观点将VAE和GAN加以分析,再度阐述GAN模型中的对抗是虚拟的,没有必要的,生成器网络和判别器网络是冗余的。(以前的博文曾经系统阐述过,请见 “虚构的对抗,GAN with the wind)下面我们从几何角度详细解释。


图1. 流形结构。


我们前面阐述过深度学习成功的核心原因可以部分归结为流形分布律和聚类分布律(深度学习的几何观点(1) - 流形分布定律),深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达;和变换概率分布。


如图1所示,假设概率分布的支集是流形。我们上一讲(深度学习的几何理解(2) - 学习能力的上限)分析了深度学习如何计算流形的参数化映射(即编码映射),;和参数化表示(解码映射),。编码映射将流形上的概率测度映射到参数域(隐空间)上,“推前”概率测度记为。在工程应用中,我们希望能够完全控制隐空间上的(推前)概率分布,使之等于高斯分布或者均匀分布,为此,我们构造隐空间到自身的同胚映射,,满足等于高斯分布或者均匀分布。


图2. 隐空间的同胚映射,改变概率分布。


如图2所示,我们将米勒佛曲面映射到平面圆盘;在平面圆盘上均匀采样,再映射回米勒佛曲面,。上面一行显示圆盘上的均匀分布映回曲面后不再是曲面上的均匀分布。下面一行显示,我们建立平面圆盘到自身的同胚映射,,这样平面圆盘上的均匀分布被映射到曲面上的均匀分布。核心问题在于如何构造隐空间的自同胚,实现两个概率测度间的变换。这方面已经有相对成熟的最优传输理论。


最优传输理论


给定欧氏空间中的两个区域和定义其上的概率测度,总测度相等。假设是一个区域间的映射,如果对于任意的可测集合,都有

,

那么我们说此映射保持测度,记成。对于任意,它们之间的距离为,那么映射的传输代价定义为:

.


法国数学家蒙日(Monge)于1781年提出了著名的最优传输问题:寻找保持测度的传输映射,使得传输代价最小,。这个映射被称为是最优传输映射,最优传输映射的传输代价被称为是两个概率测度之间的Wasserstein距离,记为 。


Kantorovich将传输映射(transportation map)减弱为传输规划(transportation scheme),用联合概率分布来表示传输规划,其边际概率分布等于,即对于任意可测集合,记为。Kantarovich将最优传输问题转化成 Kantarovich问题,Wasserstein距离等于



如果最优传输映射存在,那么最优联合概率分布的支集为对角线。Kantarovich发明了线性规划来求解这一问题,由此得到1975年的诺贝尔经济奖。


Kantarovich问题等价于其对偶形式, Wasserstein距离等于

,

这里的c-变换,

我们将称为Kantarovich势能函数如果距离函数为,那么可以证明,并且是1-Lipsitz函数。


二十世纪八十年代,Brenier进一步发展了Kantarovich的理论。如果采用距离函数,,那么存在一个凸函数,其梯度映射给出了最优传输映射,。我们称这个凸函数为Brenier势能函数。那么由最优传输映射保测度,我们得到Brenier势能函数满足蒙日-安培方程



更进一步,在距离下,最优传输映射的Kantarovich势能函数和Brenier势能函数满足简单的等式:



凸几何理论


最优传输的理论天然地和凸几何闵可夫斯基理论等价,因此我们可以用更为直观的几何观点来分析概率变换问题,从而可以将深度学习中的黑箱部分用透明的数学模型来取代。


图3. 闵可夫斯基定理。


如图3所示,给定一个凸多面体,每个面的法向量已知,面积已知,所有面的面积和法向量的乘积之和等于0,闵可夫斯基(Minkowski)定理证明这样的凸多面体存在,并且彼此相差一个平移。


图5. 亚历山大定理。


闵可夫斯基的学生亚历山大(Alexandroff)将闵可夫斯基的结果推广到开的凸多面体,如图5所示。给定凸多面体每个面的法向量,和每个面向平面圆盘的投影面积,总投影面积等于平面圆盘面积,那么这样的凸多面体存在,并且彼此相差一个垂直平移。亚历山大在1950年给出的证明是基于代数拓扑原理,从中无法构造算法。2013年,丘成桐先生,罗锋,孙剑和老顾给出一个基于变分法的证明【2】。证明的大致思路如下:每个面的线性方程记为,这里梯度已知,截距未知。每个平面将三维欧氏空间分成上下两个半空间,所有上半空间的交集叫做这些平面的上包络,上包络的边界即为凸多面体。我们通过改变截距来调节每个面的投影面积。 亚历山大定理中的截距优化下面的凹能量,


,


这里是每个面的目标投影面积,是每个面的当前面积。可以证明,这个能量在子空间上是严格凹的,其梯度和海森矩阵都有明确的几何意义,因此可以用牛顿法快速求解。


这一理论可以直接推广到任意维,证明不需要改动。


Brenier理论,Alexandroff理论的等价关系


最优传输的Brenier理论和凸几何的Alexandroff理论本质上是等价的。下面我们来具体分析。


图6. 离散最优传输问题。


图6显示了离散最优传输问题。目标概率测度为离散的Dirac测度,

,

源概率测度是单位圆盘上的均匀分布。我们希望找到单位圆盘上的一个剖分,每个胞腔映射到一个目标点,并且胞腔的面积等于目标测度。在所有的这种剖分中,找到一个特定的剖分,极小化传输代价,


图7. 离散Brenier势能函数的构造。


根据Brenier理论,存在一个凸函数,其梯度映射给出最优传输映射。对于每一个目标点,构成一个平面其梯度等于,其上包络给出Brenier势能函数,每个面的投影面积等于。由此我们看到Brenier定理和Alexandroff定理本质相同。


图6. 最优传输映射的计算实例。


图6显示了这种方法的一个计算实例,首先我们将滴水兽曲面用黎曼映照映射到平面单位圆盘,黎曼映射的像如下行左帧所示,那么曲面的面元诱导了平面圆盘上的一个测度。平面圆盘上的欧氏面元定义了均匀测度。我们用上面讲述的变分法来构造平面圆盘到自身的最优传输映射,最优传输映射的像如下行右帧所示。那么最优传输映射的结果给出了从曲面到平面圆盘的保面元映射。



对抗生成网络(GAN)


2014年,Goodfellow 提出了GAN的概念,他的解释如下:GAN的核心思想是构造两个深度神经网络:判别器D和生成器G,用户为GAN提供一些真实货币作为训练样本,生成器G生成假币来欺骗判别器D,判别器D判断一张货币是否来自真实样本还是G生成的伪币;判别器和生成器交替训练,能力在博弈中同步提高,最后达到平衡点的时候判别器无法区分样本的真伪,生成器的伪造功能炉火纯青,生成的货币几可乱真。这种计算机左右手互搏的对抗图景,使得GAN成为最为吸引人的深度学习模型。

图7. WassersteinGAN的理论框架。


图7显示了Wasserstein GAN的理论框架。假设在隐空间有一个固定的概率分布,例如高斯分布或者均匀分布。我们用一个深度神经网络来逼近解码映射映成了图像空间中的概率分布

,

我们称为生成分布。判别器的核心任务是计算训练数据分布和生成分布之间的距离;生成器的目的在于调节使得生成分布尽量接近数据分布。换言之,判别器计算Wasserstein距离;生成器计算最优传输映射


判别器计算测度间的Wasserstein距离,等价于求解Kantarovich势能函数。如果距离函数为,Kantorovich势能为1-Lipsitz,并且。这里Kantorovich势能由一个深度神经网络来计算,记为。Wasserstein距离为

生成器极小化Wasserstein距离,。所以整个WGAN进行极小-极大优化:


生成器极大化,判别器极小化,各自由一个深度网络交替完成。在优化过程中,解码映射和Kantorovich势能函数彼此独立。


如果,我们用距离函数,,那么Wasserstein距离由Kantarovich势能函数给出,最优传输映射由Brenier势能给出。在距离下,最优传输映射的Kantarovich势能函数和Brenier势能函数满足简单的等式:

这意味着:在最优情况下,判别器D由生成器G的结果直接给出;生成器G由判别器D的结果直接给出;判别器D和生成器G之间的对抗是虚拟的;判别器网络和生成器网络是冗余的。这和人们对于GAN模型生成器、判别器相克相生的想象大相径庭。


半透明深度网络模型


图8. 半透明深度网络模型


传统的变分自动编码器VAE核心想法是将隐空间的概率分布变换成高斯分布,手法相当曲折。


因为概率变换可以用最优传输理论来清晰阐释,并且用牛顿法优化凸能量可以保证全局最优性,和高阶收敛速度,我们可以将深度学习中的概率变换部分分离出来,用透明的数学模型来取代,其他部分依然用传统的黑箱来运算,如此得到了半透明的网络模型【4】。


如图8所示,我们将GAN和VAE进行改进,流形的编码解码映射依然用autoencoder来计算,数据分布被编码映射推前到隐空间,得到分布。我们再计算隐空间的最优传输映射,,将均匀分布变换成推前概率分布。隐空间的最优传输映射可以用透明的几何方法计算。


real digits and VAE results

WGAN and AE-OMT


图9. 半透明网络的计算结果和其他模型的计算结果比较。


我们将半透明网络做为生成模型,在手写体数据集合上进行测试。如图9所示,半透明网络的计算结果优于传统的VAE和WGAN结果。


图10. VAE和半透明网络比较。


我们将半透明网络做为生成模型,在人脸图片数据集合上进行测试。如图10所示,半透明网络的计算结果优于传统的VAE结果。


小结


最优传输理论可以用于解释深度学习中的概率分布变换。最优传输的Brenier理论和凸几何中的Alexandroff理论等价,我们的理论结果给出了基于变分法的构造。在这种情形下,生成器和判别器彼此等价,它们之间的对抗不再需要,网络体系结构可以大幅简化。在深度学习中,我们可以将流形降维和概率变换分开,用透明的最优传输模型来部分取代黑箱,得到半透明网络模型。


工业互联网操作系统




产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业工业互联网操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


长按上方二维码关注微信公众号: AI-CPS



本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




登录查看更多
9

相关内容

非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
【知识图谱】知识图谱怎么与深度学习结合?
产业智能官
159+阅读 · 2018年12月18日
基于深度学习的文本分类?
机器学习研究会
10+阅读 · 2018年3月3日
傅里叶变换和拉普拉斯变换的物理解释及区别
算法与数学之美
11+阅读 · 2018年2月5日
人工智能,机器学习和深度学习之间的差异是什么?
大数据技术
6+阅读 · 2017年11月22日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
19+阅读 · 2018年10月25日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
【知识图谱】知识图谱怎么与深度学习结合?
产业智能官
159+阅读 · 2018年12月18日
基于深度学习的文本分类?
机器学习研究会
10+阅读 · 2018年3月3日
傅里叶变换和拉普拉斯变换的物理解释及区别
算法与数学之美
11+阅读 · 2018年2月5日
人工智能,机器学习和深度学习之间的差异是什么?
大数据技术
6+阅读 · 2017年11月22日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
19+阅读 · 2018年10月25日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员