【普林斯顿博士论文】可扩展和可解释的学习：用于知识发现的概率模型， 140页pdf

新型机器学习方法是科学和工程变革的核心。概率模型已成为知识发现的基础学习模型。作为替代模型，它们允许在有限的预算下进行高效的黑箱优化或积极学习复杂系统的行为。另一个重要的用例是使用概率模型作为生成模型，生成具有所需属性的新设计，或从物理系统的平衡分布中生成样本。但是，为了充分发挥概率模型在知识发现中的潜力，必须开发既能应对不断增长的数据大小和复杂性，又能让领域专家容易解读的模型。

在这篇论文中，我从开发一种新方法开始，该方法解决了贝叶斯优化中的概率替代模型的稀疏解识别问题。稀疏解的发现不仅增强了解决方案对人类的可解释性，以便理解系统行为，还便于使用较少的参数更轻松地部署和维护。

接下来，我介绍了一种利用深度学习增强高斯过程推断可扩展性的新方法。高斯过程被广泛用作知识发现中的概率替代模型，但由于在GP回归中识别核超参数的高成本，其实际使用受到限制，涉及到昂贵的边缘可能性。我展示了如何通过使用“摊销”超参数推断来绕过昂贵的边缘可能性的需求。这是通过训练一个单一的神经网络实现的，该网络消耗一组数据并产生一个估计的核函数，用于不同的任务。

最后，我介绍了边缘化模型，这是一种新的高维离散数据生成模型，在科学发现中无处不在。通过使用神经网络对所有诱导的边缘分布进行明确的建模，边缘化模型提供了可扩展和灵活的生成建模与合理的可能性。直接建模边缘使得边缘推断效率高，能够对给定的（非规范化）概率函数进行任意阶的生成模型的可扩展训练，克服了以前具有精确可能性的方法的主要限制。

概率模型作为建模数据分布的原则机器学习方法，最近开始在促进科学探索和发现中起到重要作用。替代模型在科学、工程、机器人学和许多其他领域都是宝贵的工具，其中它们模拟复杂的系统行为。利用概率代理模型提供的不确定性量化，可以设计自动算法通过与系统主动交互来有效地完成给定用例的目标。一个主要的用例是优化，例如通过实验测试确定电池正极的最佳材料组成。在这种情况下，使用概率模型进行贝叶斯优化(Shahriari等，2015b)，根据实验结果了解和迭代微调组成和性能之间的关系。同时，基于替代模型的不确定性量化，策略性地选择下一个实验条件，平衡对新组成的探索与对已知性能良好的组成的利用，从而加速最佳组成的发现。

主动学习提供了另一个主要的用例，例如在训练替代模型准确模拟分子动力学(Vandermause等，2020)。该过程从基于有限数据的初始概率模型开始，然后通过主动查询系统获取额外的标记数据来系统地加强。选择最具信息性的样本进行标记是由替代模型的固有不确定性估计指导的，从而得到一个准确的模型，标记工作量最小。

除替代模型外，概率生成模型在跨多个领域建模复杂数据分布方面也取得了显著进展，包括自然语言建模(Brown等，2020)、图像生成(Song和Ermon，2019; Ho等，2020)、音频合成(Huang等，2018)和科学发现应用(Wang等，2022; Schneuing等，2022)。在训练科学发现的生成模型时，有两个主要设置。第一个设置是最大似然训练，目标是训练生成模型以最大化训练数据的似然。这种设置通常用于图像生成、自然语言建模和药物设计等任务，目标是生成与训练数据分布非常相似的数据。第二个设置是分布匹配，目标是将生成分布与目标密度对齐。这种设置在图像和语言方面研究较少，但在如采样晶格模型和估计分子或材料的平衡性质等应用中经常使用，其中需要从物理系统的热力学平衡分布中生成样本。

在这篇论文中，我提出了新方法来解决知识发现背景下概率模型的解释性和可扩展性挑战。在深入研究所提议的方法的细节之前，我为替代模型和生成模型的现有文献提供了简短的概述。本章的其余部分组织如下：第1.1.1节首先简要介绍了高斯过程，这是一种在科学发现中使用的流行的概率替代模型。然后在第1.1.2节中，我回顾了贝叶斯优化的基本方法论方面。第1.2节简要概述了关于生成模型的现有文献，重点关注科学发现中的应用。最后，在第1.3节中，我总结了整个论文的大纲。