图2显示了时空(ST)模式的一个示例。该图描述了一个城市犯罪数据集输出的级联时空模式[45],涉及几种事件类型(酒吧倒闭、醉驾、袭击)。图2(a) -2 (c)显示了每个事件类型的实例及其时间和位置,图2(e)显示了相同的事件实例。检测到的ST模式提出了一个有趣的假设,即酒吧在关闭时是附近地区醉酒驾驶和攻击犯罪的潜在发生期。这些信息可以帮助执法机构、公共安全组织和决策者确定适当的减轻犯罪行动。
通过算法挖掘时空数据带来了独特的计算挑战。例如,由于数据量大,由于数据的多样性,用户可能会经历不可接受的运行时间或花费大量的精力进行预处理。除了数量和种类,相对于吸收容量的高数据速度是另一个计算挑战,用户经常体验到数据丢失。例如,数百万条推文的实时处理涉及到对某些信息的实时预处理和挖掘。COVID 19安全数据[1]通过全国各地的附近信息(如poi、企业类别)每分钟记录人类流动情况。这涉及到信息的实时更新,例如对不同POI的访问数量,导致大量的数据量(tb),这是不可能在本地机器上存储和处理的。此外,US Census[2]包括保存在不同表和模式中的数百万条记录,跨越TB级的数据空间.
查询这样的数据可能非常耗时,而且在科学或地理计算平台上,进一步应用算法在大规模计算时的性能通常很差。这样的计算需要一个可扩展和可靠的软件生态系统来解决广泛的研究问题,并有效地帮助社会的决策者。因此,重要的是要让广大的科学家和用户了解高性能、可扩展和开源的软件工具,这些工具可以通过并行计算促进时空数据分析,从而显著推进领域研究。然而,这些工作在最近的空间和时空数据挖掘研究中却很少受到重视。
在这里,我们提供了一个全面的时空数据挖掘技术,并简要描述了它们的统计基础和主要输出模式家族(例如,异常值,预测,热点等)。我们还提供了在顺序处理和并行处理环境中被广泛研究的最近方法的最新文献。与Shekhar等人[62]类似,本次调研首先回顾了以往的综述,然后陈述了我们对本次综述的贡献(第2节)。第3节提供了与空间和时空数据相关的关键术语,描述了它们的统计基础,并简要陈述了时空数据挖掘中并行处理的社会重要性。第4节描述了六个主要的输出模式家族(即时空异常值、遥耦、预测、划分和总结、热点和变化检测)以及它们各自在顺序和并行框架下的检测方法。第5节将讨论一些当前的研究工具,包括最先进的并行工具、框架和库,它们正在许多应用程序中使用。第六部分总结了本章的研究现状和未来的研究方向。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“STDM” 就可以获取《时空数据挖掘:综述》专知下载链接