贝叶斯神经网络毫无意义吗？Twitter、Reddit双战场辩论，火药味十足！

2020 年 1 月 21 日 CVer

本文授权转载自：AI科技评论

编辑 | Camel

最近Twitter、Reddit上有一股争论的热潮涌动，先是有 François Chollet 、Yann LeCun 等人隔空辨析「到底什么是深度学习」，后是有一大批研究者争论「贝叶斯神经网络到底有没有意义」。新的一年，火药味十足，这是否也意味着深度学习的研究正进入一个混乱的时期？道理，不辨析不明朗；学问，不争论不清晰。

所谓贝叶斯神经网络，简单来说便是将一般神经网络中的权重和偏置由确定的数值变为一个分布。

按照一般理解，这种将参数以概率分布的形式表示，可以为网络推理提供不确定性估计；此外，通过使用先验概率分布的形式来表示参数，训练期间在许多模型上计算平均值，可以给网络提供正则化效果，从而防止过度拟合。

然后，在大约一个月前，OpenAI 研究员Carles Gelada发布了一个系列Twitter：

他指出，或许贝叶斯神经网络并没有多大用处。大致观点为：

1）只有当具有合理的参数先验时，我们才会去使用贝叶斯规则，但没有人知道先验对神经网络权重的编码会是什么，那么为什么我们还要使用这种先验呢？

2）许多正则化都可以用贝叶斯解释，但事实上每个人都能够对正则化给出一个解释。那么我们用贝叶斯理论来解释正则化，有什么意义呢？

3）或许有人会说BNNs可以让我们直接用经验来找到正则化。但谁来保证BNNs找到的这种正则化空间就是最优的呢？

4）BNNs可以用在贝叶斯元学习框架当中。但没有理由相信这种应用会比其他元学习框架更好。

针对Carles提出的这些反对意见，在Twitter上迅速吸引了大批的研究人员加入讨论。多数引经据典，从历史发展、当前研究、实践经验等各种角度进行辩论，或赞同，或反对，不一而足。

一、贝叶斯神经网络有用吗？

为了更加明晰“贝叶斯网络没啥用”的立场，近期Carles Gelada 和 Jacob Buckman重新梳理了他们的思路，专门写了一篇博客，从贝叶斯网络的原理入手，详细阐述了“BNNs需要先验信息丰富的先验知识才能处理不确定性”的观点，并指出泛化的代价不容忽视。

1、贝叶斯神经网络具有不确定性的原因：泛化不可知先验

为了说明先验在贝叶斯网络中的重要意义，Buckman在博客中引入了泛化不可知先验（generalization-agnostic priors），用这种“不可知的先验”进行贝叶斯推理并不能减少模型的不确定性。Carles和Buckman认为，要想在深度学习中使用贝叶斯框架，只有让先验与神经网络的泛化特性相联系，才能达到好的效果，方法是给泛化能力良好的函数以更高的概率。但是目前学术界还没有足够的能力（作者猜测）来证明哪种先验的情况能够满足条件。

另外，Buckman在博客中作者举了一个具体的例子：

当一个数据集