【阿姆斯特丹博士论文】科学模拟的机器学习：推理与生成模型

本论文提出了一些方法，用于从科学模拟器中学习数据的统计模型。由于其复杂性，科学模拟器的设计和运行成本较高。此外，求解反问题（即确定需要向模拟器提供哪些输入，以输出“匹配”实验室中观测到的模拟结果）通常是难以求解的。我们开发了生成模型，使我们能够创建更多的合成数据或利用这些模拟器解决反问题。第一个研究领域是基于模拟的推理 (Simulation-based Inference)，该方法利用生成模型从输出观测中推断输入参数。主要贡献如下：

**提出了截断边缘神经比率估计 (Truncated Marginal Neural Ratio Estimation) [第二章]：**一种基于模拟的推理方法，通过使用现有的对比学习技术，提高了估计似然与证据比率的模拟效率。我们提出了在多个回合中近似后验分布的方法，其中下一回合通过截断先验（基于前一回合的结果）来选择性生成后验高密度区域的新训练数据。通过截断先验来提出新训练数据尤其有用，因为它使我们能够在截断区域中进行经验预期覆盖测试，从而对后验分布估计的可信度提供一定的指示。而其他模拟高效的序列方法通常无法执行相同的测试。论文重点在于近似后验的几个边缘化版本，这有助于消除干扰参数。
**开发了 swyft：在 Python 中实现的截断边缘神经比率估计 [第三章]：**swyft 是一个在 Python 的 PyTorch 框架中实现了截断边缘神经比率估计（以及其他一些算法）的软件包。除了主算法外，它还引入了一种样本缓存技术，使用户能够在多个推理中利用截断先验进行推理并重用每种情况下的模拟，从而进一步节省计算成本。它还依赖现有的软件 dask 和 zarr 分别自动化模拟的并行化和集群存储。
**提出了对比神经比率估计 (Contrasive Neural Ratio Estimation) [第四章]：**一种新颖的对比学习方法，通过训练分类器来区分一个参数与模拟观测联合抽取的样本与从边缘分布中抽取的 k 个替代样本。我们的公式推广了现有的二元和多类对比基于模拟的推理方法，用于估计似然-证据比率，同时消除了之前多类版本中的固有偏差。我们对超参数提出了建议，表明由于我们消除了这种固有偏差，因此基于重要性采样的测试适用于我们的算法，还探索了使用互信息作为不同估计器之间的平均后验质量的排序标准。
**研究了平衡基于模拟的推理以获得保守后验分布 [第五章]：**基于模拟的推理在确定后验估计的准确性方面方法有限。一种方法是测试后验是否平均表现出过于自信或保守（即比真实值更窄或更宽）。这通常通过进行经验预期覆盖测试来完成。本文通过使用拉格朗日乘数在损失函数中引入一个平衡项，该项已被证明可以在似然-证据比率估计中增加保守性。本文将平衡项推广到其他基于模拟的推理方法，通过将其与卡方分布（χ²）散度联系来解释其行为，并为使用正则流 (Normalizing Flows) 的后验估计器提供一种初始化方案，使其在设计上更加保守。
**开发了使用广义 Kullback-Leibler 散度的基于模拟的推理 [第六章]：**在基于模拟的推理中，设计用于近似后验分布的替代模型的方法通常是根据它们估计的量命名的，如神经后验估计 (Neural Posterior Estimation)、神经比率估计 (Neural Ratio Estimation) 等。我们打破了这一传统，提出了一个目标函数，可以在一个混合设置中同时学习后验的密度估计、分布与后验之间的比率估计，或两者的组合。我们通过优化一种广义 Kullback-Leibler 散度来实现这一点，该散度考虑了非归一化分布中的归一化常数。除了理论开发外，我们还通过基准问题的实验表明，混合建模在某些情况下具有优势。

第二个研究领域是将生成模型应用于提出稳定的晶体结构，以增强材料的性能，如用于电池和半导体技术。

**引入 FlowMM：使用黎曼流匹配生成材料 [第七章]：**一对执行晶体结构预测和从头生成的生成模型。这意味着从元素列表中估计稳定的晶体结构，并分别提出元素和晶体结构。我们使用分数坐标、晶胞以及原子类型来对材料建模。成功地应用此模型需要将黎曼流匹配推广到适合晶体固有的对称性。此外，我们通过经验拟合晶格基分布，为生成合理的晶胞提供了强烈的归纳偏差。综合起来，我们创造了一个极为高效的生成模型，在晶体结构预测和从头生成两方面均优于竞争模型。