(本文阅读时间:7分钟)
编者按:2020年新冠疫情肆虐全球,为了控制疫情蔓延,找到应对措施,美国疾病控制中心公布了大量疫情相关数据,向全世界顶级科研机构救助,希望科学家们可以利用技术能力,提供具有较高参考价值的预测数据,从而帮助制定有效的控制策略。微软亚洲研究院基于时空预测技术,训练了针对新冠疫情的预测模型,并于2020年下半年被美国疾控中心采纳使用。在过去的近一年中,该预测模型的表现整体优于全球其它四十几家科研机构提供的预测模型。日前,微软亚洲研究院基于此前的技术积累,正式推出了面向全行业的时空预测开源工具 FOST。
什么是时空概念?“时”是指时间序列,“空”即空间上的相互影响和联系。例如,物流行业每个站点的历史派件量是时序关系,而各中转/配送站点间又存在空间上的联系;再比如,在新冠疫情防控中,各级行政区域的每日感染病例数字,单独来看是时序关系,而彼此之间的关联则属于空间关系。
“时空”因素在各行业中的广泛存在,使时空预测成为众多行业进行科学决策、优化效率的关键。近日,微软亚洲研究院推出了面向全行业、具有高度通用性与易用性的时空预测开源工具 FOST(Forecasting Open Source Tool)。存在相关需求的企业和机构可以基于这一便捷易用的工具生成高效的时空预测解决方案。
GitHub 链接:
https://github.com/microsoft/FOST
近年来在与行业伙伴的紧密合作中,微软亚洲研究院的研究员们发现,时空预测需求普遍存在于物流、电信、医疗、交通等许多行业中。然而,当前大部分的时空预测还只是停留在研究阶段,真正应用时,大家只是相互借鉴思路,想要解决实际问题还需要各自从头开始一点点摸索,并没有一个简单、易上手的通用工具。
基于与多家企业在时空预测上的合作研究,微软亚洲研究院的研究员们抽象出了行业共性问题,将多年的技术和经验积累进行转化,推出了具有极高行业通用性的时空预测工具 FOST。
FOST 架构图
在与时间、空间概念密切相关的行业中,时空预测工具 FOST 如何运作并发挥作用?
依然以较为典型的物流行业为例。如果物流企业希望通过 FOST 对某个大站点的次日派件量进行预测,首先,企业需要在底层的深度时序神经网络模块中输入近一段时期的时间序列数据,包括这个站点的每日总出库量和总收件量,及以该站点为终点或中转站的派件量,之后模型的时序模块会先学习历史数据中的特征,并表示为隐空间中的一组向量。
接下来则需要进一步叠加相邻站点的时序规律信息进行空间上的信息聚合。一个例子是站点与其相邻站点之间往往存在这样的关系——当相邻站点快递件数增加时,就会将一部分快件发送给该站点。在这种情况下,当在时序上预测出该站点次日派件量为200件,同时又看到空间层上相邻站点次日快递件数预计会急剧增加时,就可以预估出该站点次日的派件量可能将远超200件,这样就将站点空间上的关联关系也融入到了模型中。
上述仅是物流行业的例子。很多其他行业场景,如网络基站流量预测、交通流量预测、电力输送预测,与物流行业同样存在共通的时空概念,时空预测工具 FOST 在这些行业上的作用原理也基本类似。
不过要注意的是,对于关联性越大的节点,在预测时就越要优先考虑他们的关联关系,否则如果将所有关联信息都进行无差别计算,那计算量将会巨大到难以承受。比如原本就已经有数千个地点,如果还要将所有地点间的关系都考虑进来,这样的计算量对服务器的要求会非常高,是一般企业所无法承担的一笔开销。对此,微软亚洲研究院也做了很多优化,包括在图随机采样时会优先考虑强关联的信息,从而提高整个预测工具的运行效率。
此外,在某些行业中,空间概念未必仅停留在地理空间层面。例如,在医疗行业的糖尿病患者病情预测中,同一类糖尿病的不同患者,就可视作多个不同空间。一个病人的病情发展规律可以作为历史参考,帮助预测出其他患者的病情发展趋势。
微软亚洲研究院的时空预测开源工具给各行业用户提供了一个简单易用的深度学习“利器”。通过使用 FOST,用户不仅可以有效提升业务场景预测的准确率,还可以避免从头开发类似平台的重复工作。未来,微软亚洲研究院将在当前版本的基础上,持续优化时空预测工具上模型的准确性和训练效率,助力更多企业和机构通过构建时空预测能力创造更大的价值。