摘要
一个综合的人工智能系统不仅需要用不同的感官(如视觉和听觉)感知环境,还需要推断世界的条件(甚至因果)关系和相应的不确定性。在过去的十年里,我们看到了许多感知任务的重大进展,比如视觉对象识别和使用深度学习模型的语音识别。然而,对于更高层次的推理,具有贝叶斯特性的概率图模型仍然更加强大和灵活。近年来,贝叶斯深度学习作为一种将深度学习与贝叶斯模型紧密结合的统一的概率框架出现了。在这个总体框架中,利用深度学习对文本或图像的感知可以提高更高层次推理的性能,推理过程的反馈也可以增强文本或图像的感知。本文对贝叶斯深度学习进行了全面的介绍,并对其在推荐系统、主题模型、控制等方面的最新应用进行了综述。此外,我们还讨论了贝叶斯深度学习与其他相关课题如神经网络的贝叶斯处理之间的关系和区别。
介绍
在过去的十年中,深度学习在许多流行的感知任务中取得了显著的成功,包括视觉对象识别、文本理解和语音识别。这些任务对应于人工智能(AI)系统的看、读、听能力,它们无疑是人工智能有效感知环境所必不可少的。然而,要建立一个实用的、全面的人工智能系统,仅仅有感知能力是远远不够的。首先,它应该具备思维能力。
一个典型的例子是医学诊断,它远远超出了简单的感知:除了看到可见的症状(或CT上的医学图像)和听到患者的描述,医生还必须寻找所有症状之间的关系,最好推断出它们的病因。只有在那之后,医生才能给病人提供医疗建议。在这个例子中,虽然视觉和听觉的能力让医生能够从病人那里获得信息,但医生的思维能力才是关键。具体来说,这里的思维能力包括识别条件依赖、因果推理、逻辑演绎、处理不确定性等,显然超出了传统深度学习方法的能力。幸运的是,另一种机器学习范式,概率图形模型(PGM),在概率或因果推理和处理不确定性方面表现出色。问题在于,PGM在感知任务上不如深度学习模型好,而感知任务通常涉及大规模和高维信号(如图像和视频)。为了解决这个问题,将深度学习和PGM统一到一个有原则的概率框架中是一个自然的选择,在本文中我们称之为贝叶斯深度学习(BDL)。 在上面的例子中,感知任务包括感知病人的症状(例如,通过看到医学图像),而推理任务包括处理条件依赖性、因果推理、逻辑推理和不确定性。通过贝叶斯深度学习中有原则的整合,将感知任务和推理任务视为一个整体,可以相互借鉴。具体来说,能够看到医学图像有助于医生的诊断和推断。另一方面,诊断和推断反过来有助于理解医学图像。假设医生可能不确定医学图像中的黑点是什么,但如果她能够推断出症状和疾病的病因,就可以帮助她更好地判断黑点是不是肿瘤。 再以推荐系统为例。一个高精度的推荐系统需要(1)深入了解条目内容(如文档和电影中的内容),(2)仔细分析用户档案/偏好,(3)正确评价用户之间的相似度。深度学习的能力有效地处理密集的高维数据,如电影内容擅长第一子任务,而PGM专攻建模条件用户之间的依赖关系,项目和评分(参见图7为例,u, v,和R是用户潜在的向量,项目潜在的向量,和评级,分别)擅长其他两个。因此,将两者统一在一个统一的概率原则框架中,可以使我们在两个世界中都得到最好的结果。这种集成还带来了额外的好处,可以优雅地处理推荐过程中的不确定性。更重要的是,我们还可以推导出具体模型的贝叶斯处理方法,从而得到更具有鲁棒性的预测。
作为第三个例子,考虑根据从摄像机接收到的实时视频流来控制一个复杂的动态系统。该问题可以转化为迭代执行两项任务:对原始图像的感知和基于动态模型的控制。处理原始图像的感知任务可以通过深度学习来处理,而控制任务通常需要更复杂的模型,如隐马尔科夫模型和卡尔曼滤波器。由控制模型选择的动作可以依次影响接收的视频流,从而完成反馈回路。为了在感知任务和控制任务之间实现有效的迭代过程,我们需要信息在它们之间来回流动。感知组件将是控制组件估计其状态的基础,而带有动态模型的控制组件将能够预测未来的轨迹(图像)。因此,贝叶斯深度学习是解决这一问题的合适选择。值得注意的是,与推荐系统的例子类似,来自原始图像的噪声和控制过程中的不确定性都可以在这样的概率框架下自然地处理。 以上例子说明了BDL作为一种统一深度学习和PGM的原则方式的主要优势:感知任务与推理任务之间的信息交换、对高维数据的条件依赖以及对不确定性的有效建模。关于不确定性,值得注意的是,当BDL应用于复杂任务时,需要考虑三种参数不确定性:
通过使用分布代替点估计来表示未知参数,BDL提供了一个很有前途的框架,以统一的方式处理这三种不确定性。值得注意的是,第三种不确定性只能在BDL这样的统一框架下处理;分别训练感知部分和任务特定部分相当于假设它们之间交换信息时没有不确定性。注意,神经网络通常是过参数化的,因此在有效处理如此大的参数空间中的不确定性时提出了额外的挑战。另一方面,图形模型往往更简洁,参数空间更小,提供了更好的可解释性。
除了上述优点之外,BDL内建的隐式正则化还带来了另一个好处。通过在隐藏单元、定义神经网络的参数或指定条件依赖性的模型参数上施加先验,BDL可以在一定程度上避免过拟合,尤其是在数据不足的情况下。通常,BDL模型由两个组件组成,一个是感知组件,它是某种类型神经网络的贝叶斯公式,另一个是任务特定组件,使用PGM描述不同隐藏或观察变量之间的关系。正则化对它们都很重要。神经网络通常过度参数化,因此需要适当地正则化。正则化技术如权值衰减和丢失被证明是有效地改善神经网络的性能,他们都有贝叶斯解释。在任务特定组件方面,专家知识或先验信息作为一种正规化,可以在数据缺乏时通过施加先验来指导模型。 在将BDL应用于实际任务时,也存在一些挑战。(1)首先,设计一个具有合理时间复杂度的高效的神经网络贝叶斯公式并非易事。这一行是由[42,72,80]开创的,但是由于缺乏可伸缩性,它没有被广泛采用。幸运的是,这个方向的一些最新进展似乎为贝叶斯神经网络的实际应用提供了一些启示。(2)第二个挑战是如何确保感知组件和任务特定组件之间有效的信息交换。理想情况下,一阶和二阶信息(例如,平均值和方差)应该能够在两个组件之间来回流动。一种自然的方法是将感知组件表示为PGM,并将其与特定任务的PGM无缝连接,如[24,118,121]中所做的那样。 本综述提供了对BDL的全面概述,以及各种应用程序的具体模型。综述的其余部分组织如下:在第2节中,我们将回顾一些基本的深度学习模型。第3节介绍PGM的主要概念和技术。这两部分作为BDL的基础,下一节第4节将演示统一BDL框架的基本原理,并详细说明实现其感知组件和特定于任务的组件的各种选择。第5节回顾了应用于不同领域的BDL模型,如推荐系统、主题模型和控制,分别展示了BDL在监督学习、非监督学习和一般表示学习中的工作方式。第6部分讨论了未来的研究问题,并对全文进行了总结。
结论和未来工作
BDL致力于将PGM和NN的优点有机地整合在一个原则概率框架中。在这项综述中,我们确定了这种趋势,并回顾了最近的工作。BDL模型由感知组件和任务特定组件组成;因此,我们分别描述了过去几年开发的两个组件的不同实例,并详细讨论了不同的变体。为了学习BDL中的参数,人们提出了从块坐标下降、贝叶斯条件密度滤波、随机梯度恒温器到随机梯度变分贝叶斯等多种类型的算法。 BDL从PGM的成功和最近在深度学习方面有前景的进展中获得了灵感和人气。由于许多现实世界的任务既涉及高维信号(如图像和视频)的有效感知,又涉及随机变量的概率推理,因此BDL成为利用神经网络的感知能力和PGM的(条件和因果)推理能力的自然选择。在过去的几年中,BDL在推荐系统、主题模型、随机最优控制、计算机视觉、自然语言处理、医疗保健等各个领域都有成功的应用。在未来,我们不仅可以对现有的应用进行更深入的研究,还可以对更复杂的任务进行探索。此外,最近在高效BNN (BDL的感知组件)方面的进展也为进一步提高BDL的可扩展性奠定了基础。