神经网络高斯过程 (Neural Network Gaussian Process)

2022 年 11 月 8 日 PaperWeekly

©作者 | 宋珣
单位 | 南京大学
研究方向 | 数据挖掘

我们先梳理出单隐层神经网络与高斯过程(GP)的关系,再将概念拓展到多隐层神经网络,然后讨论如何用 GP 来完成传统神经网络的任务,即学习和预测。




单隐层神经网络与NNGP


在如下图所示的全连接神经网络中:



函数的输出可以写为:


我们令网络的的所有参数服从高斯分布:


现在我们研究在某个输入 下第 个输出单元的值,即

因为 ,对于任意的 ,第 个隐藏单元的输出的期望值是 0:


个隐藏单元的输出的方差为:


注意对于所有的 的值都是一样的(因为它只决于 ),所以我们令  。

由于所有隐层输出 独立同分布,由 中心极限定理 可知,当 趋于无穷时 服从高斯分布,方差为 。综上,当 趋于无穷时,我们得到 的先验分布为:


为了限制 的方差不会趋于无穷,对于某个固定的 ,我们令 ,可得



现在对于一组输入 ,我们考虑其对应输出   的联合概率分布。根据定义, 应当服从均值为 0 的多元高斯分布,其中任意两个输出 之间的协方差定义为:



其中 ,该值对于所有的 都相等。
此时我们说    组成一个高斯过程,高斯过程的定义为:

定义:高斯过程是是一组变量的集合,这组变量的任意子集都服从多元高斯分布。[2]


其实,与其说高斯过程描述了这几个变量,不如说它描述的是一个函数的分布:

对于任意数量的输入,其对应的函数输出的联合概率分布都是多元高斯分布。

[1] 中的作者做了以下的实验来为验证这种高斯分布:



参数设置为:。在上面的三张图中,分别设置隐藏层宽度 为 1,3 和 10。
每个点代表对网络参数的一次采样(即每个点都是一个单独的神经网络),横轴和纵轴分别代表输入为 时的函数输出。
可以看到,随着 逐渐变大,两个输出呈现出二元高斯分布(并且有明显的相关性)。
现在我们来直觉上理解一下这个结论的作用。



我们以上面 的情况为例。还是那两个输入,一个 ,一个 。现在我们假设 的标签 已知: ,那么 的标签 该是多少呢?

在没有 的标签时,我们并不知道图中的哪些点(代表的神经网络)可以拟合 之间的关系。而当得知 后,我们至少可以把选择范围缩小在上图的红色方框内,因为只有那里面的模型对 的预测符合我们的观测值。此时一种可行的做法是综合考虑方框内所有模型对 的预测,然后给出最终输出(比如取它们的均值)。

在这个例子中,( )相当于 训练样本 ,而 测试集




多隐层神经网络与NNGP


我们已经知道单隐层神经网络的每一维输出可以看作是一个高斯过程(GP),其实这个结论可以推广到 多隐层全连接神经网络  [3]

对于输入 ,将第 层的第 个单元的输出记为 ,神经网络的计算可以表示为:



其中 为激活函数。


对输入 ,其输出 是一个高斯过程(原理同单隐层类似):
其中 被称为 kernel ,它的递归式为:


可以看到整个递归式中唯 一非线性 的部分就是激活函数 。这使得我们不能得到一个完全的解析式。幸运的是对于一些特定的激活函数,是可以有等价的解析式表达的。比如对于常用的 ReLU 函数,递归式就可以表示为如下的解析形式:




用NNGP做预测


在讲 NNGP 的预测方法前,我们需要先铺垫一个基础知识: 多元高斯分布的条件概率分布

考虑一个服从高斯分布的向量 ,我们把它分成一上一下两部分: 。则我们有:


在已知 的情况下, 的分布可以表示为:


其中:



注意 是已知 的分布。区别于 先验分布 是一种 后验分布 ,它利用了 的观测值以及 之间的协方差 ,在一定程度上消除了对原有 的不确定度。

现在我们就知道如何用 NNGP 做预测了:

记得我们前两节的结论是: 对于全连接层神经网络,当网络参数服从高斯分布,且隐层宽度足够大时,其每一维度的输出都是一个高斯过程。

和常规 learning 问题一样,我们的数据集有两部分: 训练集 测试集


训练集的每个样本包括一个输入值和一个观测值: 

而测试集只有输入样本  

我们将它们记为向量的形式:



我们感兴趣的未知量为 ,根据我们的结论, 的联合高斯概率分布为:



现在已知 ,则 的后验分布为:





总结


传统神经网络与神经网络高斯过程(NNGP)最大的区别在于,后者没有 显式 的训练的过程(即通过 BP 调整参数),而是只借助了神经网络的结构信息(包括网络参数的分布,激活函数)来生成一个 kernel,即协方差矩阵。

我们甚至都不需要真的生成一个神经网络就可以得到 kernel:

假设我们用到是 ReLU 激活函数,那么从:



开始,到递归式:



都不需要涉及神经网络的具体参数。

除此之外,还可以直接指定一个 empirical 的协方差矩阵,比如 平方指数(squared exponential)误差



的距离越远,协方差越小,反之则越大。这是符合直觉的,因为对于一个 连续平滑 的函数,相隔较近的点总会有更强的相关性——这也是 empirical 的协方差函数所依赖的共识。



参考文献

[1] Neal R M. Bayesian learning for neural networks[M]. Springer Science & Business Media, 2012.
[2] Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT press, 2006.
[3] Lee J, Bahri Y, Novak R, et al. Deep neural networks as gaussian processes[J]. arXiv preprint arXiv:1711.00165, 2017.
[4] Roman Garnett. BAYESIAN OPTIMIZATION.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

登录查看更多
0

相关内容

高斯过程(Gaussian Process, GP)是概率论和数理统计中随机过程(stochastic process)的一种,是一系列服从正态分布的随机变量(random variable)在一指数集(index set)内的组合。 高斯过程中任意随机变量的线性组合都服从正态分布,每个有限维分布都是联合正态分布,且其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度,因此被视为联合正态分布的无限维广义延伸。高斯过程由其数学期望和协方差函数完全决定,并继承了正态分布的诸多性质
【简明书】数学,统计和机器学习的动手入门,57页pdf
专知会员服务
62+阅读 · 2022年3月3日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
25+阅读 · 2020年7月19日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
深度运用LSTM神经网络并与经典时序模型对比
PaperWeekly
1+阅读 · 2021年12月16日
图神经网络入门(三)GAT图注意力网络
图与推荐
10+阅读 · 2020年5月14日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
神经网络常微分方程 (Neural ODEs) 解析
AI科技评论
40+阅读 · 2019年8月9日
神经网络中的权重初始化一览:从基础到Kaiming
大数据文摘
12+阅读 · 2019年4月18日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
神经网络bp算法推导
统计学习与视觉计算组
11+阅读 · 2017年11月17日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关资讯
深度运用LSTM神经网络并与经典时序模型对比
PaperWeekly
1+阅读 · 2021年12月16日
图神经网络入门(三)GAT图注意力网络
图与推荐
10+阅读 · 2020年5月14日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
神经网络常微分方程 (Neural ODEs) 解析
AI科技评论
40+阅读 · 2019年8月9日
神经网络中的权重初始化一览:从基础到Kaiming
大数据文摘
12+阅读 · 2019年4月18日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
神经网络bp算法推导
统计学习与视觉计算组
11+阅读 · 2017年11月17日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员