AAAI 2018 | 腾讯AI Lab提出降秩线性动态系统：可处理有噪声计数值短数据

2018 年 2 月 8 日 机器之心

选自arXiv

机器之心编译

参与：Panda

AAAI 2018 于 2 月 7 日在美国新奥尔良闭幕，本次会议收录了腾讯 AI Lab 共 12 篇论文。这里我们编译介绍了其中的《降秩线性动态系统（Reduced-Rank Linear Dynamical Systems）》；研究结果表明该方法可以稳健地从长度较短的、有噪声的、有计数值的数据中学习隐含空间。此外，作者也已经在 GitHub 上公布了他们用 Matlab 实现 RRLDS 的代码。

论文地址：http://yuan-gao.net/pdf/AAAI2018.pdf
代码地址：https:// github.com/sheqi/RRLDS

解析高维时间序列的隐含结构是人工智能领域的基本问题之一，并且已经在从社会、经济到生物科学等各种领域得到了广泛的应用（Linderman, Stock, and Adams 2014; She, So, and Chan 2015; She, Chen, and Chan 2016; So et al. 2016; Hein et al. 2016）。在这样的情况中，很多研究和理论都认为高维时间序列是某些基本的、低维的、随时间变化的相关信号的有噪声观察结果（Pfau, Pnevmatikakis, and Paninski 2013; Archer et al. 2014; Sussillo et al. 2016）。人们已经将线性动态系统（LDS）用于从被观察的多元时间序列数据中提取低维的隐含网络结构（Archer et al. 2014; Lakshmanan et al. 2015; Linderman et al. 2017），这能得到观察结果的变化性质，不管是空间上的还是时间上的。

但是，在使用 LDS 来检索最优的隐含网络时，还存在两个主要的难题。第一，已有的模型需要一个预定义的隐含维度。为了保证该模型的能力，它通常会被设置成一个很大的值，这会因为过拟合而导致模型难以建模长度较短的高维时间序列数据。由于很多现实世界场景中都存在长度较短的时间序列数据，所以这个建模问题会带来很多麻烦。比如，在神经科学领域，由于 (i) 某些神经元的寿命短、(ii) 记录材料的有效时间有限以及 (iii) 在动物活动过程中记录电极的微运动，我们无法在实验中得到长序列的高质量神经数据（Spira and Hai 2013）。在临床领域，病人的临床数据的长度通常在 50 以下，因为大多数病人的住院时间都少于两周（Banaee, Ahmed, and Loutfi 2013）。在经济领域，比如国内生产总值和居民消费价格指数等计量经济学的多元时间序列是按季度或年度测量的，这会导致数据长度较短。

第二，真实世界的时间序列数据往往是计数值（而非实值）。标准 LDS 假设观察遵循高斯分布，所以应用标准 LDS 是不可行的（She, So, and Chan 2016）。举几个例子：在神经群中记录到多个尖峰队列（Paninski et al. 2010）、S&P 100 指数上的交易数据（Linderman and Adams 2014）。所以需要对模型进行扩展，以处理这些数据的计数本质。最近，有研究者提出了泊松线性动态系统（PLDS）（Buesing et al. 2014）来进行计数数据建模。但是，泊松假设说明观察结果是均匀离散的，即条件均值和方差是相等的。这就限制了 PLDS 在描述神经尖峰计数上的应用，因为通常观察到的神经尖峰计数要么是过离散的，要么就是欠离散的（方差大于或小于平均）（Churchland et al. 2010; She, Jelfs, and Chan 2016）。如果没有合适的分布能取得计数数据的离散性，那就不能学习到该数据的变化性质，由此就无法推理得到最优的隐含网络。

鉴于存在这些限制，我们提出了一种全新方案，可用于根据长度短的有噪声计数数据推理隐含网络。我们重点关注的是 LDS 的动态矩阵，它表示一个隐含节点对另一个节点的后续活动所施加的影响。换句话说，该动态矩阵可被用于控制隐含网络的节点演进。我们观察到的关键结果是该动态矩阵的秩中的信息包含这些节点的状态空间的固有维度。为了防止 LDS 与给定的长度较短的数据发生过拟合，我们的目标是学习一个紧凑的低秩动态矩阵。

具体来说，我们为动态矩阵构造了两个不同的低秩先验（low-rank prior），即多元拉普拉斯（multivariate Laplacian）和核范数（nuclear norm），它们在检索固有维度上具有相似的表现，并且被广泛应用于不同的场景（Gao and Yuille 2016; Gao, Ma, and Yuille 2017）。此外，为了促进基于计数数据的降秩动态矩阵学习，我们还引入了离散性自适应（DA：dispersion-adaptive）分布并开发了一种全新的、可灵活参数化的观察模型

图 1：根据 (a) 无约束的动态矩阵和 (b) 降秩动态矩阵所重建的隐含轨迹（不同的颜色表示不同的模拟试验）。(b) 中的低维流形更加平滑且构建得更好。

图 1 给出了带有 DA 分布的降秩动态矩阵在根据长度较短的、有噪声计数值时间序列数据恢复低维流形上的优势。观察数据是 40 维（即 40D）的时间序列数据，这是用一个 10D 的动态矩阵建模的（同样的初始状态）。结果表明我们的方法能够从该动态矩阵中成功检索三个固有的维度，从而得到由这个三维曲线表示的更平滑的且构建得更好的流形，而使用无约束动态矩阵的方法则会失败。总的来说，我们的研究有四大贡献：

我们提出通过在动态矩阵上施加两个降秩结构来检索多元时间序列的固有维度。
我们引入了一种计数值的指数族分布（称为 DA 分布）来求取计数数据的离散本质，并且得到了各种常用的分布作为特例。
我们利用了一种隐含的降秩线性动态模型来调节 DA 观测分布的期望，由此构建了一种全新的线性动态系统模型。
通过将当前最佳的方法延展成全新的模型，我们开发了一种变分贝叶斯期望最大化算法（VBEM：Variational Bayes Expectation Maximization）。

我们在模拟数据和真实世界数据的基准方法上对我们的框架进行了评估。出色的表现说明我们的方法：(1) 能够自动减少隐含状态空间的冗余维度，从而防止与大量预定义隐含状态过拟合；(2) 相比于基准方法，能显著提升预测有噪声神经尖峰活动的表现；(3) 能稳健且有效地检索来自两个实验数据集的基础复杂神经系统的固有维度。

方法

降秩结构

为了通过动态矩阵 A 的秩而从 MTS 数据集恢复固有的维度，我们应该选择能够诱导出预期的低秩性质的特定先验。我们有两种引导低秩动态矩阵的选择：(1) 多元拉普拉斯先验，(2) 核范数先验。如表 1 所示：

表 1：动态矩阵的先验选择

离散性自适应（DA）分布

图 2：(a) 函数 w(·) 的不同选择的 DA 分布的均值和方差。当 log w(·) 固定时，增大θ会使均值和方差更大（更黑的点）；(b) 通过参数化 θ 和 w(·) 而得到的 DA 分布的常见计数分布特例。

降秩线性动态系统（RRLDS）

有了两种降秩结构和 DA 分布，现在我们可以将它们与一个隐含的线性动态系统耦合起来。我们将这个系统称为 RRLDS，该系统有利于建模有限的计数数据来检索固有维度。我们将其用于建模在大脑神经元上记录到的时间序列数据（尖峰计数），而且也可以简单直接地将其用于描述和解读其它计数过程的观察值。

图 3：RRLDS 的两个阶段

图 3 展示了 RRLDS 并给出了其两阶段的模型结构：第一个阶段包含在动态矩阵 A 上构造的降秩结构，其控制了隐含状态 xt 的演进。第二个阶段是通过 DA 观察模型将隐含状态 xt 映射到响应 yt 上，这可以学习其离散性质。

推理（E 步骤）

学习（M 步骤）

算法 1：推理和学习的框架（VBEM）

结果

为了证明 DA 的泛化性并验证我们的算法实现，我们首先在广泛的模拟数据上测试了我们的推理和学习方法。然后我们通过在两个神经科学数据集上与当前最佳方法的比较而对预测表现进行了评估。最后我们验证表明我们的方法可以从这些多元时间序列中检索其固有维度，并且比已有的研究成果都强大得多。表 2 列出了在「结果」部分比较的方法的缩写。

表 2：我们的方法与多个基准方法的缩写。ML 表示多元拉普拉斯，NN 表示核范数。alternative LDS 方法包含单纯的 LDS（Ghahramani and Hinton 1996）、PLDS（Buesing, Macke, and Sahani 2012）、SubspaceID（Van Overschee and De Moor 2012）和 StableLDS（Boots, Gordon, and Siddiqi 2007）

图 5：使用 RRLDS-ML（红色三角形）、RRLDS-NN（黄色正方形）和带有泊松观察模型的 LDS（PLDS，紫色叉号）评估的动态矩阵的谱（spectrum）。真实的复杂特征值谱用蓝色圆圈表示。RRLDS-ML 和 RRLDS-NN 方法（没有 DA）的接近于真实特征值，而 PLDS 无法消除冗余的维度。(b) 预测得到的和真实的计数数据的平稳协方差矩阵中的元素的散点图。

图 6：(a) 使用不同的动态矩阵真实秩学习到的 4 个 LDS 的预测对数似然，(b) 使用不同长度的训练数据学习到 4 个秩为 5 的 LDS 的预测对数似然。(a) 和 (b) 中预定义的隐含状态数量都是 10。RRLDS-ML 和 RRLDS-NN 都显著（p<0.001，配对 t 检验）超越了其它方法。

图 7：在 Task #1 中的实验尖峰活动的预测对数似然

图 8：五个模型在神经元尖峰计数（Task #2）上的预测表现。每张小图中的行表示神经元的尖峰序列。颜色表示每个时间步骤所记录/预测的计数值。

论文：降秩线性动态系统（Reduced-Rank Linear Dynamical Systems）

摘要：线性动态系统（LDS）在研究多变量时间序列的基本模式方面有广泛的应用。这些模型的一个基本假设是高维时间序列可以使用一些基本的、低维的和随时间变化的隐含状态来表征。但是，已有的 LDS 建模方法基本上是学习一个规定了维度的隐含空间。当处理长度较短的高维时间序列数据时，这样的模型会很容易过拟合。我们提出了降秩线性动态系统（RRLDS），可以在模型学习过程中自动检索隐含空间的固有维度。我们观察到的关键是 LDS 的动态矩阵的秩中包含了固有的维度信息，而使用降秩正则化的变分推理最终会得到一个简明的、结构化的且可解释的隐含空间。为了让我们的方法能处理有计数值的数据，我们引入了离散性自适应分布（dispersion-adaptive distribution）来适应这些数据本身具备的过离散性/等离散性/欠离散性。在模拟数据和实验数据上的结果表明我们的模型可以稳健地从长度较短的、有噪声的、有计数值的数据中学习隐含空间，并且还显著超越了当前最佳的方法的预测表现。