多元时间序列的因果关系分析是数据挖掘领域的研究热点. 时间序列数据包含着与时间动态有关的、未知的、有价值的信息, 因此若能挖掘出这些知识进而对时间序列未来趋势进行预测或干预, 具有重要的现实意义. 为此, 本文综述了多元时间序列因果关系分析的研究进展、应用与展望. 首先, 本文归纳了主要的因果分析方法, 包括Granger因果关系分析、基于信息理论的因果分析和基于状态空间的因果分析; 然后, 总结了不同方法的优缺点、适用范围和发展方向, 并概述了其在不同领域的典型应用; 最后, 讨论了多元时间序列因果分析方法待解决的问题和未来研究趋势.
时间序列是指现实世界中的某个观测变量, 按照其发生的时间先后顺序排列的一组数字序列. 时间序列可以分为一元时间序列和多元时间序列, 多元时间序列是指多个一元时间序列的组合, 可以认为是一次采样中可以获得不同来源的多个观测变量. 多元时间序列广泛存在于自然[1]、医学[2]、社会[3]、工业[4]等各个领域的复杂系统中, 多个变量之间具有复杂的关联关系, 相互影响作用不明确. 随着数据采集和存储技术的发展, 时间序列数据的维度和规模不断增加, 为建立准确的预测模型增加了难度. 同时, 随着数据维度的增加, 出现了大量冗余和无关变量, 容易掩盖重要变量的作用, 对模型的建立产生负面的影响[5]. 时间序列数据挖掘[6-7]是当前研究的热门问题, 研究如何有效地从多元时间序列中挖掘潜在的有用信息、构建预测模型, 能够为自然、医学、社会、工业等领域的控制、决策与调控提供理论指导, 具有十分重要的现实意义[8]. 因此, 本文主要研究多元时间序列的分析手段, 解释未知系统的动力学特性与运行规律, 从而为建立更加精确的系统模型奠定基础.
在多变量系统中, 通过分析可观测变量之间的相关关系, 可以找出对建模贡献度大的相关变量, 从而推断出系统的运行机理. 目前, 多元时间序列相关性分析主要集中于统计学手段, 例如Pearson相关系数、秩相关系数、典型相关分析[9]、互信息[10]、最大信息系数[11]、灰色关联分析[12]、Copula分析[13]等. 这些方法能够有效处理线性或非线性相关关系, 其分析结果具有对称性. 然而, 多个变量之间不仅存在直接相互作用, 还存在以中间变量为桥梁的间接相互作用, 并且影响关系通常具有非对称性. 传统的相关性分析方法难以处理间接关系、非对称影响关系, 在实际应用中受到很大限制.
随着系统复杂度的增加, 相关性分析难以满足建模需求, 因果关系分析方法得到广泛关注[14]. 因果关系是一个系统(因)与另一个系统(果)之间的作用关系, 其中第1个系统是第2个系统的原因, 第2个系统依赖于第1个系统. 1969年, Granger[15]首次提出了一种评价二变量时间序列之间是否存在相互作用的因果关系分析方法, 即Granger因果关系分析方法. 该方法基于系统的可预测性, 基本思想是: 对于两个时间序列, 如果一个时间序列未来时刻的预测误差, 能够通过引入另一个时间序列的历史信息而减小, 则称第2个时间序列对第1个时间序列具有因果影响. 由于传统的Granger因果分析建立在线性模型的基础上, 仅对二元时间序列进行分析, 在提出之后出现了大量改进模型[16]. Granger因果分析方法具有很强的可解释性, 但是此类方法只能给出定性分析结果, 并且对于高维时间序列容易产生虚假因果现象. 基于信息测度的因果分析是一类非参数方法, 包括转移熵、条件熵、条件互信息等, 这类方法通过建立评价函数, 能够定量分析因果关系的强弱[17]. 此外, 基于状态空间的因果模型[18]、贝叶斯网络等模型[19-20], 同样用于分析各种类型的因果关系. 因此, 针对多变量系统的建模要求, 合理利用因果分析方法的优势, 研究系统各个变量之间的驱动响应关系, 进而推断系统内部结构和运行机理, 是当前研究的热点问题[21].
综上所述, 相比于常规的相关性分析方法, 因果分析方法能够分析出具有方向性的直接因果关系, 更加适用于多变量系统的分析与建模. 本文针对多元时间序列因果关系分析的几类典型方法进行综述, 包括Granger因果关系分析、基于信息理论的因果分析和基于状态空间的因果分析, 并结合当前流行的机器学习方法、不同领域时间序列建模的需求等, 讨论因果分析方法的实际应用和未来发展趋势.
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180189
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“多元时间” 可以获取《多元时间序列因果关系分析研究综述》专知下载链接索引