【剑桥大学博士论文】概率深度学习的进展及其应用, 207页pdf

深度学习与概率建模是两种互补的机器学习范式。概率深度学习的目标是将这两者统一起来，它有潜力在理论特性和实践功能上为各种问题提供引人注目的好处。本论文为概率深度学习的方法论和应用做出了贡献。特别是，我们开发了新方法来解决四个不同的应用领域。 第一个应用是超出分布检测。当训练后的数据分布发生变化时，神经网络倾向于做出不可靠的预测。为了解决这个问题，我们提出了一种基于贝叶斯变分自编码器的新概率深度学习方法，该方法不仅对模型参数进行点估计，而且推断出完整的分布。然后，我们使用信息论测量来检测该模型的超出分布输入。 第二个应用是数据高效的优化。许多科学和工程问题需要在高维结构化空间中优化昂贵的黑盒函数。为了解决这个问题，我们开发了一种新的概率深度学习方法，该方法在变分自编码器的低维连续潜在空间中高效地优化函数。我们建议定期重新训练模型，以保持潜在流形对优化有用。 第三个应用是神经网络校准。神经网络在训练期间未见过的输入上往往校准不良。为了避免过度自信，模型必须能够量化其不确定性。为此，我们开发了一种新的概率深度学习方法，该方法仅对神经网络参数的一个子集进行贝叶斯推断。我们提出了一种选择这种子网络的方法，以忠实地保留模型的预测不确定性。 第四个应用是连续深度学习。当神经网络在新任务上训练时，它们常常会灾难性地忘记先前学习的任务。为了使模型能够跨任务序列学习，我们引入了一种新的概率深度学习方法，该方法统一了两种流行的持续学习方法：贝叶斯权重正则化和经验重放。我们的方法明确旨在近似从所有任务联合批量训练中获得的模型。总的来说，这篇论文的目标有两个。首先，我们旨在开发新方法，这些方法位于概率建模和深度学习的交叉点，结合了它们各自的优点。其次，我们旨在通过将这些概率深度学习方法应用于前面提到的多样化应用领域，展示它们的实际潜力。

在过去的十年中，深度神经网络（DNNs）已成为解决复杂实际问题的标准模型，它们在视觉、语音和语言等多个应用领域取得了令人难以置信的成功（LeCun et al., 2015）。DNNs的主要优势之一，也是其成功的原因之一，是它们能够有效地从原始的高维数据输入（如图像、音频和文本）中提取出层次化、语义上有意义的表示（Goodfellow et al., 2016）。这些表示，也被称为嵌入或特征，随后可以被标准的机器学习技术，如逻辑回归，用于解决相关的下游应用。然而，尽管取得了巨大的成功，DNNs仍然存在严重的缺陷，并且在某些应用中它们并非首选方法。现代DNNs的一个主要限制是，它们无法识别新的数据示例是否来自于训练期间遇到的不同数据分布（即所谓的超出分布输入）。更糟糕的是，当面对这样的新数据点时，DNNs往往校准不良，对其预测过于自信（Guo et al., 2017；Nguyen et al., 2015）。这对于医疗保健或自动驾驶等安全关键应用尤其令人担忧（Amodei et al., 2016）。DNNs的另一个主要缺点是，它们无法在任务序列中连续学习，而是在遇到新数据时灾难性地忘记过去的信息（Sutton, 1986）。这使得模型训练和部署在财务和环境意义上都成本高昂，因为每当数据集更新时，都需要重复地从头开始重新训练DNNs，这浪费了资源（García Martín, 2017）。最后，存在一些问题可以从DNNs的独特属性中受益，但由于它们的某些限制，包括前面提到的限制，DNNs的应用尚未被广泛探索。一个主要的例子是在高维结构化输入（例如，在科学和工程中出现）上的优化问题，其中DNNs可以用于将输入映射到更易于优化的嵌入空间（Gómez-Bombarelli et al., 2018）。解决上述所有问题的一个有前途的方法是概率建模框架，其目标是推断出对感兴趣的未知量的概率分布（Ghahramani, 2015）。例如，可以考虑对DNN的模型参数进行概率处理。这与DNNs通常的训练方式形成鲜明对比，即只获得模型参数的单一设置，这种方式表达能力有限。概率方法已成功应用于解决上述问题，即超出分布检测、模型校准、持续学习和样本高效优化（Bishop, 2006）。然而，概率推断技术的应用大多限于在低维数据上训练的简单机器学习模型，从而限制了其实际潜力。在这篇论文中，我们开发了新方法，将深度学习和概率建模的互补优势统一起来。特别是，深度学习使我们能够提取高维输入（如图像）的表示，而概率建模则使我们能够灵活地推理模型参数的分布。我们展示了这种概率深度学习方法如何帮助我们解决上述应用。首先，我们关注超出分布检测。我们提出了一种变分自编码器（Kingma and Welling, 2014），其中使用随机梯度马尔可夫链蒙特卡洛（Chen et al., 2014）来推断模型参数的完整后验分布（而不仅仅是点估计）。我们展示了如何利用信息论测量（MacKay, 1992c）来检测输入空间和模型潜在空间中的超出分布点。其次，我们转向数据高效优化。我们基于在变分自编码器的低维连续潜在流形上进行贝叶斯优化的方法（Brochu et al., 2010；Gómez-Bombarelli et al., 2018）。与先前的工作相比，我们定期在新查询的数据点上重新训练模型，这些数据点按其目标函数值加权。这样主动地引导模型保持一个对优化过程有用的流形。第三，我们考虑神经网络校准。我们开发了一种贝叶斯神经网络方法（Gal, 2016），在该方法中，只对神经网络权重的一个小的、精心挑选的子集进行推断，而其他权重保持为点估计。这使我们能够使用表达能力强、否则难以处理的后验近似，例如通过拉普拉斯近似对这些子网络使用全协方差高斯后验（MacKay, 1992a）。最后，我们解决持续深度学习问题。我们提出了一种新方法，通过结合经验重放（Robins, 1995）和二次贝叶斯权重正则化（Kirkpatrick et al., 2017）的互补优势来减轻神经网络中灾难性遗忘。为此，我们利用知识适应先验（Khan and Swaroop, 2021），这是一种依赖于对过去数据梯度忠实重建的通用适应原则。