高斯过程(Gaussian process),以下简称 GP [1],是一种广泛应用于机器学习中的概率模型。如果一个过程 是 GP 的话,我们一般我们用以下公式来表示:
上述公式中,C 是核函数(kernel function),也叫协方差函数(covariance function),另外 C 有两个超参数 需要人工设定或者从数据集中学习、估计。e 代表观测的高斯噪声。以下我们假设 f 的均值函数(mean function)是 0。 GP 的优势主要是因为他是 Infinite-dimensional 模型。怎么理解呢?设想神经网络,其网络权值需要从数据中学习,而且学到的值是 deterministic 固定的。而 GP 是 non-parametric,从数据中学到是一个分布,是一个关于函数的后验分布,因此包含无限种取值可能性。但相应的,这牺牲了 GP 的计算复杂度。
GP 主要有两个问题:
1. 计算复杂度高;2. 对非稳态(non-stationary)的数据表现不好。 这也是这篇论文所关注的问题。我们先看一下这两个问题怎么回事: 假设我们有一个数据集 ,那么后验分布也是个高斯过程,而且后验分布的均值和方差为 [1]: 可以看到,上公式有个矩阵求逆,而且这个矩阵的大小是和数据的数量 N 有关的,因此 GP 回归问题的计算复杂度为 。如果 N 特别大的话 GP 会很耗时。解决这个问题的典型方法有比如 sparse GP 等模型。 那么另外一个 non-stationary 的问题是什么意思的?我们平常最常用的 kernel,比如 squared exponential, Matern 等都是构建 stationary GP。这个 stationary 意思是 ,也就是说 GP 的概率分布是平移不变的(translation invariant)。通俗点说,stationary 假设 GP 的“特征(比如平滑性、频率等)”随时间是不会变化的。 这个假设对很多应用不切合实际。比如说,方波在跳变处会有特征的变化,图像在物体边缘处也会有明显的特征变化。解决这个 stationary 的问题那就是使用 non-stationary GP,主要思路就是使超参数 是随时间变化的。目前有 GP experts [2] 及其他方法 [3][4][5]。当然,还有一种方法那就是用深度高斯过程(Deep Gaussian Process,以下简称 DGP)[6]。 我们下面介绍这篇论文是怎么解决这两个问题的。
[1] abCarl Edward Rasmussen and Christopher K. I. Williams. Gaussian Processes for Machine Learning http://www.gaussianprocess.org/gpml/
[2] Carl Edward Rasmussen and Zoubin Ghahramani. Infinite Mixtures of Gaussian Process Experts https://proceedings.neurips.cc/paper/2001/file/9afefc52942cb83c7c1f14b2139b09ba-Paper.pdf
[3] Markus et al. Non-Stationary Gaussian Process Regression with Hamiltonian Monte Carlo http://proceedings.mlr.press/v51/heinonen16.pdf
[4] abPaciorek. NONSTATIONARY GAUSSIAN PROCESSES FOR REGRESSION AND SPATIAL MODELLING https://www.stat.berkeley.edu/~paciorek/diss/paciorek-thesis.pdf
[5] Christian Plagemann et al. Nonstationary Gaussian Process Regression using Point Estimates of Local Smoothness http://ais.informatik.uni-freiburg.de/publications/papers/plagemann08ecml.pdf
[6] abcAndreas C. Damianou Neil D. Lawrence. Deep Gaussian Processes http://proceedings.mlr.press/v31/damianou13a.pdf
[7] Dunlop et al., How Deep Are Deep Gaussian Processes? https://arxiv.org/abs/1711.11280
[8] Hugh Salimbeni, Marc Deisenroth. Doubly Stochastic Variational Inference for Deep Gaussian Processes https://arxiv.org/abs/1705.08933