作者:专知
【新智元导读】这是由来自22个国家和72个机构/组织的80位专家撰写的《预测领域》的百科全书式概述。非常值得关注!
预测一直处于决策和规划的最前沿
。围绕着未来的不确定性既令人兴奋,又具有挑战性,个人和组织都在寻求风险最小化和公用利益最大化
。
大量的预测应用需要一系列不同的预测方法来应对现实生活中的挑战。
这篇文章提供了一个非系统的回顾理论和预测的实践。
我们提供了一个广泛的理论、最先进的模型、方法、原则来准备,产生、组织和评估预测。
然后,我们展示了这些理论概念是如何应用于各种现实生活的背景。
我们并不认为这篇综述是方法和应用的详尽列表。然而,我们希望我们的百科全书式的介绍将为过去几十年来所进行的丰富工作提供一个参考点,并为预测理论和实践的未来提供一些关键的见解。由于其百科全书的性质,预期的阅读模式是非线性的。我们提供交叉参考,让读者浏览各种主题。我们补充了由大量免费或开源软件实现和公开可用的数据库所涵盖的理论概念和应用。
论文链接:https://arxiv.org/abs/2012.03854
自从早期人类通过观察天空来判断天气是否适合狩猎以来,天气预报已经取得了长足的进步,甚至自从猎人能够得到诸如「气温高达40度,有可能下雨」这样的预报以来。现在,猎人只要看一看智能手机,就能立即得到多个地点每小时的气温预报和降雨概率,以及显示未来几个小时天气预报模式的地图视频。管理人员、政府官员、投资者和其他决策者可以对日益复杂的情况作出定制的预测,为许多不同类型的重要决策提供信息。自De Gooijer和Hyndman(2006)发表优秀的综述文章以来的15年里,预测领域在理论和实践方面都取得了惊人的增长。因此,这篇综述既及时又广泛,既有高度理论性又非常实用。
计算技术的快速发展使得分析更大更复杂的数据集成为可能,并激发了人们对分析和数据科学的兴趣。预测方法工具箱在规模和复杂性上都有所增长。计算机科学以神经网络和其他类型的机器学习等方法引领潮流,受到预测者和决策者的极大关注。其他方法,包括统计方法,如贝叶斯预测和复杂回归模型,也从计算的进步中获益。而且这些改进并不局限于那些基于计算技术的进步。例如,在「群体智慧概念的推动下,关于判断预测的文献得到了相当大的扩展。
预测的结合或聚合并不是一个新的想法,但最近在预测界得到了越来越多的关注,并且表现得很好。例如,Spyros Makridakis举办的M4比赛中表现最好的参赛选手综合了多种方法的预测。目前已经开发了许多模型来预测COVID-19导致的死亡人数,将这些预测结合起来是有意义的,因为很难知道哪种模型最准确。它与贝叶斯的思想是一致的,因为它可以被视为更新,每个单独的预测添加到组合预测(也称为集合)提供一些新的信息。
尽管这些新进展令人兴奋,但像ARIMA和指数平滑等老方法仍然很有价值。指数平滑,连同其他简单的方法,是相当稳健的,不像更复杂的方法容易过度拟合。从这个意义上说,它们的有用之处不仅在于它们自身的优点,还在于它们是包括更复杂方法在内的整体的一部分。如果预测方法不同,预测误差不高度相关,那么组合预测更有价值。
天气条件使得天气预报员的工具箱更大、更复杂,也使得数据集更大、网格更密集,应用领域的模型也得到了改进。这种情况已经发生在大气模型上,这对制定更好的天气预报非常重要。关于顾客及其偏好的更详细的信息可以为经理开发出改进的顾客行为模型。反过来,能够快速处理所有这些信息的预测方法对于决策的目的是有价值的。这一过程引发了在互联网上收集信息的热潮。
风险是决策过程中一个重要的考虑因素,而概率预测可以量化这些风险。概率预测的理论工作已经活跃了一段时间,许多实践领域的决策者已经接受了概率预测的使用。在贝叶斯方法中,推理和预测在本质上是概率性的,概率预测也可以通过许多其他方式产生。
美国国家气象局从20世纪60年代开始向公众发布降水的概率。然而,概率的广泛应用和传播是本世纪以来才发展起来的。现在,概率预测越来越多地传达给公众,并作为决策的输入。Nate Silver的FiveThirtyEight.com的报告对选举、医学和科学、体育赛事、经济指标和许多其他领域给出了概率预测,通常会单独考虑多种预测模型,也会将它们组合在一起。
人们渴望确定性是很自然的。当降水概率预报最初广泛传播时,许多人对此非常怀疑,有些人指责预报员套期处理,说「别给我概率」。「我想知道是否会下雨」。当然,点数预测通常与概率预测一起给出。当前对概率的频繁接触有助于公众更好地理解、欣赏并对它们感到更舒服。当前世界上COVID-19疫情、巨大火灾、大风暴、政治两极分化、国际冲突等的增加,应该有助于他们认识到我们生活在一个充满巨大不确定性的时代,量化这些不确定性的预测可能很重要。在可能的情况下,视觉效果会有所帮助,正如俗话所说,一张图片胜过千言万语。例如,在预测飓风的速度、严重程度和未来路径时,地图上的不确定性锥体,以及球队赢得比赛的概率的时间线,每次比赛后都会迅速更新。
简而言之,这是预测领域的一个激动人心的时代,所有新的理论发展和预测在实践中的应用。预测是如此普遍,以至于不可能在一篇文章中涵盖所有这些发展。本文设法涵盖了相当多的内容,而且种类繁多。对每种方法进行简短的介绍,由对理论主题或实践领域“接近实际”的专家来做,可以很好地提供预测理论和实践的最新状况。
预测理论的前提是,当前和过去的知识可以用来预测未来。特别是对于时间序列,人们相信可以在历史值中识别模式,并在预测未来值的过程中成功地实现它们。然而,人们并不指望能准确预测期货价格。相反,在预测未来时间段内单个时间序列的许多选项中,有期望值(称为点预测)、预测区间、百分位数和整个预测分布。这组结果集合起来可以被认为是「预测」。预测过程中还有许多其他潜在的结果。目标可能是预测一个事件,如设备故障,时间序列可能只在预测过程中发挥很小的作用。当预测程序与要在实践中解决的问题有关时,它们是最好的。理论可以通过理解问题的本质特征来发展。反过来,理论的结果可以导致实践的改进。
预测的目的是在面对不确定性时改进决策。为了实现这一目标,预测应该提供最可能发生的事情的无偏猜测(预测点),以及不确定性的度量,如预测间隔(PI)。这些资料将有助于作出适当的决定和采取适当的行动。预测应该是一项客观、冷静的工作,它是建立在事实、合理的推理和合理的方法之上的。但由于预测是在社会环境中产生的,它们受到组织政治和个人议程的影响。因此,预测往往反映的是愿望,而不是不偏不倚的推测。
参考资料:
https://arxiv.org/abs/2012.03854