黑箱随机变分方法(black-box stochastic variational methods)已成为近似推断的主要方法之一,并构成了结构化生成模型中摊销推断(amortized inference)的基础。特别具有结构性的模型之一是概率程序(probabilistic programs),它们能够建模包含层次结构与离散潜变量(如随机控制流决策)的复杂生成过程。 对于此类模型,标准的变分推断方法往往难以获得理想结果,其原因并非变分族表达能力不足,而是优化过程中难以摆脱局部极小值(local minima)。当模型包含离散组件、外部仿真器调用,或前述的随机控制流时,附加的可微性约束将显著加剧这些挑战,因为这类结构通常使得模型部分潜变量相对于参数的梯度不可计算。 因此,许多依赖梯度的优化策略(尤其是基于重参数化技巧 reparameterization 的方法)将不再适用,研究者不得不依赖效率较低、且方差可能极高的替代方法。在受限的采样预算条件下(例如计算代价昂贵的模型),这种问题会被进一步放大,因为无法通过增加采样数量来降低方差。 本论文旨在提出并发展一系列新的思想与技术,以应对这些在结构化与离散潜变量模型中所面临的限制——这类挑战广泛存在于概率程序与生成建模领域,并且至今仍是现代变分推断研究中的重要难题。![]