Nature新子刊创刊首发综述论文：这是你常听到的贝叶斯统计与建模

2021 年 2 月 5 日 PaperWeekly

作者｜魔王

来源｜机器之心

一篇关于贝叶斯统计与建模的综述文章，出现在了 Nature 新子刊 Nature Reviews Methods Primers 的第一期上。

新年伊始，Nature 旗下再添三本新刊：Nature Aging（《自然 - 老龄化》）、Nature Computational Science（《自然 - 计算科学》）和 Nature Reviews Methods Primers（《自然综述 - 方法导论》）。其中 Nature Reviews Methods Primers 以刊发综述文章的形式为读者提供各种科学方法的概述及其在不同研究问题上的应用，每周出版一次。期刊上的所有文章都将采取约稿形式，涵盖生命科学和物理科学中使用的分析、应用、统计、理论和计算方法。

1 月 14 日，Nature Reviews Methods Primers 上线第一期，刊登了一篇关于贝叶斯统计与建模的综述文章，作者来自荷兰乌得勒支大学、加州大学默塞德分校、爱丁堡大学、牛津大学、乔治城大学、莱斯大学、哥伦比亚大学、艾伦 · 图灵研究所等机构。

这篇文章描述了贝叶斯分析的各个阶段，从指定先验和数据模型，到推断、模型检验与改进，探讨了先验和后验预测检验的重要性，选择恰当的技术从后验分布、变分推断和变量选择中采样。

此外，这篇文章还提供了贝叶斯分析在多个研究领域的成功应用示例，包括社会科学、生态学、遗传学、医学等，并提出了可复现性策略和报告标准，概述了更新版的 WAMBS（何时需要担心误用贝叶斯统计以及如何避免）检查表。最后，这篇文章介绍了贝叶斯分析对人工智能的影响。

贝叶斯统计简介

贝叶斯统计是基于贝叶斯定理的数据分析和参数估计方法，其独特性在于统计模型中的观测和未观测参数是基于联合概率分布的，即先验分布和数据分布。

典型的贝叶斯工作流程包括三个主要步骤（参见下图 1）：通过先验分布捕捉统计模型中给定参数的可用知识，这通常是在数据收集之前确定的；利用观测数据中可用参数的信息确定似然函数；利用贝叶斯定理结合先验分布和似然函数，得到后验分布。

后验分布用观测数据来平衡先验知识，从而反映更新的知识，可用于执行推断。在对该联合概率分布取平均时，贝叶斯推断是最优的，对这些定量的推断基于观测数据的条件分布。

图 1：贝叶斯研究阶段。a. 标准研究流程；b. 利用贝叶斯统计的研究工作流程。（注：图中后验的表示 p(y|θ) 应为 p(θ|y)）

贝叶斯统计的基础最初出现在 Reverend Thomas Bayes 的文章中，后来由贝叶斯的朋友 Richard Price 在 1763 年发表了这篇文章，主要关于逆概率，即如何仅基于过去的事件确定未来事件发生的概率。1825 年，Pierre Simon Laplace 重新发现了贝叶斯公式，也就是今天我们所说的贝叶斯定理。逆概率与贝叶斯定理在数学领域中长期存在，但直到最近 50 年，这些工具才在应用统计学领域中崛起。

贝叶斯定理。（来源：https://zh.wikipedia.org/zh-hans/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86）

贝叶斯工作流程

贝叶斯工作流程的前两个步骤如上图 1 所示。首先确定先验分布，先验的选择通常被视为研究者在实现贝叶斯模型时要做的一个更重要的选择，因为它对最终结果影响巨大。要实现合适的先验，需要用到先验预测检验流程。然后是确定似然函数，将似然函数结合先验得到后验分布（或后验）。先验和似然函数对于确定后验分布非常重要。这篇文章提供了多个示例来展示整个流程。

第一个示例是关于博士延毕的。研究者询问 333 名博士生完成博士论文所需的时间，进而计算延迟时间，即计划时间与实际时间的差距（时间单位为月）。

先验分布

首先需要形式化先验分布。

先验分布在贝叶斯统计中起到决定性作用。下图 2 展示了该示例中似然函数、先验分布和后验分布的关系：

图 2：贝叶斯定理重要组件图示。

先验预测检验

由于基于贝叶斯分析的推断受限于先验的「正确性」（correctness），因此我们需要审慎地检验指定模型是否能够生成实际数据。这部分通过先验预测检验过程来完成。

先验预测检验有助于避免模型错误指定（参见下图 3），例如对比错误地用精度替代方差时的先验预测分布（图 3a）和基于正确超参数的分布（图 3b）。此外，这里还展示了观测数据和模拟数据的核密度估计，即对概率密度函数的估计结果（图 3c）。

图 3：博士延毕示例中的先验预测检验。

确定似然函数

似然函数在贝叶斯推断和频率学派推断中都有应用。在两种推断范式下，似然函数的作用都是将观测数据的概率表示为未知参数。在一些案例中，指定似然函数是非常直接的，例如投掷一枚硬币的实验。

似然函数的硬币实验示例。（来源：https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0）

后验分布

指定先验和似然函数，并收集数据之后，就可以得到后验分布。本文解释了如何将模型与数据拟合来获取后验分布、如何选择变量，以及为什么需要后验预测检验。

模型构建是一个迭代的过程，任何贝叶斯模型都可以看做是一个占位符，可以在面对新数据或对现有数据拟合不足时进行改进，也可以仅通过模型改进（ model refinement）过程来实现。

在贝叶斯推断中，模型拟合的一种不错方法是马尔可夫链蒙特卡罗方法（MCMC）。MCMC 能够利用计算机模拟间接获取对后验分布的推断，下表 1 概述了基于 MCMC 和不基于 MCMC 的采样技术。

表 1：基于 MCMC 和不基于 MCMC 的采样技术概览。

下图展示了在博士延毕示例中使用 MCMC 方法的后验估计情况：

此外，实现贝叶斯分析有很多标准计算包，参见下表 2：

表 2：常用的开源贝叶斯软件程序包。

后验预测检验

获取特定模型的后验分布后，我们可以用它模拟基于这一分布的新数据，这有助于评估模型是否提供有效预测，对未来事件进行推断。这些模拟可用于多种目的，比如通过对比观测数据和模拟数据的核密度估计值来检验模拟数据是否类似于观测数据。在评估模型是否与数据生成机制有不错的拟合时需要更正式的后验预测检验方法。任何参数依赖的统计或差异都可用于后验预测检验。这与先验预测检验的使用方式类似，但在对比观测数据和模拟数据时要更加严苛。

为了阐释后验预测分布的用法，本文展示了另一个示例：了解一个维基百科网页的浏览量，以及与浏览量相关的时间关联因素。

图 6：基于当前观测数据进行后验预测检验和对未来页面浏览量进行预测。

应用

贝叶斯推断在多个科学领域得到了广泛应用，本文重点介绍了其在「社会和行为科学」、「生态学」和「遗传学」领域的应用，此处不再展开介绍。

可复现性与数据处理

恰当的统计信息报告（包括数据和脚本共享）对于研究的验证和可复现是关键因素。优秀的研究实践鼓励可复现性，其工作流程参见下图 7：

图 7：研究工作流程中的可复现性因素。

这里展示了贝叶斯研究阶段（图 1）和 WAMBS 检查表在更广泛的研究透明度中的应用，并提供了更新版的 WAMBS 检查表。

WAMBS 检查表更新版。

对人工智能的影响

出于支持大规模应用的需要，贝叶斯概念已经利用了以深度学习为中心的新技术的发展，包括深度学习框架（TensorFlow、Pytorch），创建表示能力更强、数据驱动的模型。除了提供一个强大的工具来挑选灵活、模块化的生成模型之外，DNN 已被用于开发新的近似推理方法，并为贝叶斯实践提出了一种新的范式，该范式将统计建模和计算融入了其核心之中。

一个典型的例子就是变分自编码器，它已经成功地应用于多个领域，比如单细胞基因组学，为这些领域提供一个通用的建模框架。该框架带来了很多扩展，包括 latent factor disentanglement。底层的统计模型是一个简单的贝叶斯分层潜变量模型，将高维观测值映射到通过 DNN 定义的函数假定正态分布的低维潜变量。变分推断被用于近似潜变量的后验分布。

然而，在标准变分推断中，我们为每个潜变量引入一个局部变分参数，在这种情况下，计算需求将随着数据样本的数量的变化呈线性增长。变分自编码器使用一种名为 amortization 的近似过程，用一个单一全局参数集（一种识别网络）取代对许多单个变分参数的推断。该识别网络用于参数化 DNN，输出每个数据点的局部变分参数。

值得注意的是，当把模型和推断结合到一起并解释时，作为编解码算法的变分自编码器有一种优雅的解释：它由一个概率编码器和一个概率解码器组成。概率编码器是一个 DNN，可以将每个观测数据映射至潜在空间中的分布；而概率解码器是一个补充性的 DNN，将潜在空间中的每个点映射至观测空间中的分布。因此，模型指定和推断与变分自编码器产生关联，这表明贝叶斯建模和深度学习技术之间的边界越发模糊。其他近期的例子还包括使用 DNN 来构建概率模型，通过应用一系列逆变换来构建复杂的概率分布，以及针对可交换序列数据定义模型。

DNN 的表达能力及其在模型构建和推断算法中的应用需要作出一些妥协，而这需要贝叶斯研究。将模型与推断融合的趋势使得这些技术更多地应用于大规模数据问题，但是基础的贝叶斯概念仍然被完全纳入该范式中。尽管将贝叶斯方法应用于神经网络学习已经出现数十年了，但要想理解先验如何转换为特定的函数特性，我们仍需要进一步研究涉及复杂网络结构的现代贝叶斯深度学习模型的先验指定。

最近人工智能领域的争论提到了对贝叶斯方法及其替代方法的需求。例如，深度集成被证明在处理模型不确定性时可作为贝叶斯方法的替代方法。但是，近期研究还表明深度集成实际上可以理解为近似贝叶斯模型平均。类似地，dropout 是一种在 DNN 训练过程中广泛使用的正则化方法，它通过在网络训练过程中随机丢弃节点来提升模型鲁棒性。实验表明，dropout 能够提升泛化性、降低过拟合。针对 dropout 也出现了贝叶斯解释：概率模型的贝叶斯近似形式——深度高斯过程。尽管贝叶斯定理并未完全泛化至人工智能领域的所有近期进展中，但贝叶斯思维被深深地嵌入了大量近期创新研究，这无疑是一种成功。下一个十年将出现新的浪潮——贝叶斯智能的创新性发展。

关于贝叶斯统计，你还可以阅读这篇文章

这篇文章一经发布就引起了广泛关注，但也存在一些瑕疵。例如，知名科学科普博主 @光头怪博士指出了图 1 中的后验表示错误，并推荐了另一篇他认为不错的文章。这篇论文对 MCMC 方法进行了基础介绍，对 MCMC 方法试图解决的问题、为什么使用，以及 MCMC 方法在理论和实践中的工作原理提供了强大的概念性理解。