时空数据挖掘:综述

2022 年 6 月 30 日 专知

时空数据挖掘的目的是在大的空间和时空数据中发现有趣的、有用的但非平凡的模式。应用于公共安全、生态学、流行病学、地球科学等领域。这个问题是具有挑战性的，因为虚假模式的高社会成本和过高的计算成本。近年来的时空数据挖掘研究因其快速增长而需要更新。此外，他们没有充分研究时空数据挖掘的并行技术。本文介绍了时空数据挖掘方法的最新进展。其次，对时空数据挖掘的并行计算方法进行了详细的综述;

时空数据挖掘是在大规模的时空数据中发现新的、非平凡的但潜在有用的模式的过程。时空(ST)数据包括地理参考的气候变量、流行病爆发、犯罪事件、社交媒体、交通、交通动态等。由于其跨学科性质，分析和挖掘这些数据对于推进许多科学问题和现实世界应用的最先进技术是非常重要的。因此ST数据在公共安全、生态学、流行病学等多个领域的应用尤为突出。

图1展示了时空数据挖掘的整体过程。输入数据经过预处理去除噪声、误差等后进行时空分析，了解其时空分布。采用合适的时空数据挖掘算法产生输出模式，然后由领域专家进行研究和验证，发现新的见解，并相应地改进数据挖掘算法。

图2显示了时空(ST)模式的一个示例。该图描述了一个城市犯罪数据集输出的级联时空模式[45]，涉及几种事件类型(酒吧倒闭、醉驾、袭击)。图2(a) -2 (c)显示了每个事件类型的实例及其时间和位置，图2(e)显示了相同的事件实例。检测到的ST模式提出了一个有趣的假设，即酒吧在关闭时是附近地区醉酒驾驶和攻击犯罪的潜在发生期。这些信息可以帮助执法机构、公共安全组织和决策者确定适当的减轻犯罪行动。

通过算法挖掘时空数据带来了独特的计算挑战。例如，由于数据量大，由于数据的多样性，用户可能会经历不可接受的运行时间或花费大量的精力进行预处理。除了数量和种类，相对于吸收容量的高数据速度是另一个计算挑战，用户经常体验到数据丢失。例如，数百万条推文的实时处理涉及到对某些信息的实时预处理和挖掘。COVID 19安全数据[1]通过全国各地的附近信息(如poi、企业类别)每分钟记录人类流动情况。这涉及到信息的实时更新，例如对不同POI的访问数量，导致大量的数据量(tb)，这是不可能在本地机器上存储和处理的。此外，US Census[2]包括保存在不同表和模式中的数百万条记录，跨越TB级的数据空间.

查询这样的数据可能非常耗时，而且在科学或地理计算平台上，进一步应用算法在大规模计算时的性能通常很差。这样的计算需要一个可扩展和可靠的软件生态系统来解决广泛的研究问题，并有效地帮助社会的决策者。因此，重要的是要让广大的科学家和用户了解高性能、可扩展和开源的软件工具，这些工具可以通过并行计算促进时空数据分析，从而显著推进领域研究。然而，这些工作在最近的空间和时空数据挖掘研究中却很少受到重视。

在这里，我们提供了一个全面的时空数据挖掘技术，并简要描述了它们的统计基础和主要输出模式家族(例如，异常值，预测，热点等)。我们还提供了在顺序处理和并行处理环境中被广泛研究的最近方法的最新文献。与Shekhar等人[62]类似，本次调研首先回顾了以往的综述，然后陈述了我们对本次综述的贡献(第2节)。第3节提供了与空间和时空数据相关的关键术语，描述了它们的统计基础，并简要陈述了时空数据挖掘中并行处理的社会重要性。第4节描述了六个主要的输出模式家族(即时空异常值、遥耦、预测、划分和总结、热点和变化检测)以及它们各自在顺序和并行框架下的检测方法。第5节将讨论一些当前的研究工具，包括最先进的并行工具、框架和库，它们正在许多应用程序中使用。第六部分总结了本章的研究现状和未来的研究方向。

专知便捷查看