MIT最新《贝叶斯深度学习》综述论文，37页pdf

一个综合的人工智能系统应该不止能“感知”环境，还要能“推断”关系及其不确定性。深度学习在各类感知的任务中表现很不错，如图像识别，语音识别。然而概率图模型更适用于inference的工作。这篇survey提供了贝叶斯深度学习（Bayesian Deep Learning, BDL）的基本介绍以及其在推荐系统，话题模型，控制等领域的应用。

基于深度学习的人工智能模型往往精于 “感知” 的任务，然而光有感知是不够的，“推理” 是更高阶人工智能的重要组成部分。比方说医生诊断，除了需要通过图像和音频等感知病人的症状，还应该能够推断症状与表征的关系，推断各种病症的概率，也就是说，需要有“thinking”的这种能力。具体而言就是识别条件依赖关系、因果推断、逻辑推理、处理不确定性等。

概率图模型（PGM）能够很好处理概率性推理问题，然而PGM的弊端在于难以应付大规模高维数据，比如图像，文本等。因此，这篇文章尝试将二者结合，融合到DBL的框架之中。

比如说在电影推荐系统中，深度学习适于处理高维数据，比如影评（文本）或者海报（图像）；而概率图模型适于对条件依赖关系建模，比如观众和电影之间的网络关系。

从uncertainty的角度考虑，BDL适合于去处理这样的复杂任务。复杂任务的参数不确定性一般有如下几种：（1）神经网络的参数不确定性；（2）与任务相关的参数不确定性；（3）perception部分和task-specific部分信息传递的不确定性。通过将未知参数用概率分布而不是点估计的方式表示，能够很方便地将这三种uncertainty统一起来处理（这就是BDL框架想要做的事情）。

另外BDL还有 “隐式的”正则化作用，在数据缺少的时候能够避免过拟合。通常BDL由两部分组成：perception模块和task-specific模块。前者可以通过权值衰减或者dropout正则化（这些方法拥有贝叶斯解释），后者由于可以加入先验，在数据缺少时也能较好地进行建模。

当然，BDL在实际应用中也存在着挑战，比如时间复杂性的问题，以及两个模块间信息传递的有效性。