「深度学习在轨迹数据管理与挖掘的应用」最新综述及其展望

轨迹计算是一个关键领域，涵盖了轨迹数据管理与挖掘，由于其在位置服务、城市交通和公共安全等实际应用中的重要作用，吸引了广泛的关注。传统方法主要关注简单的时空特征，面临着复杂计算、可扩展性有限和适应真实世界复杂性不足的挑战。在本文中，我们提供了深度学习在轨迹计算（DL4Traj）发展和最新进展的综述。我们首先定义了轨迹数据，并简要概述了广泛使用的深度学习模型。系统地，我们探讨了深度学习在轨迹管理（预处理、存储、分析和可视化）和挖掘（与轨迹相关的预测、推荐、分类、行程时间估计、异常检测和移动性生成）中的应用。值得注意的是，我们概述了大型语言模型（LLMs）的最新进展，这些模型有潜力增强轨迹计算。此外，我们总结了应用场景、公共数据集和工具包。最后，我们概述了DL4Traj研究中的当前挑战，并提出了未来的方向。相关论文和开源资源已经汇编，并持续更新于：DL4Traj Repo。项目页面：

https://github.com/yoshall/Awesome-Trajectory-Computing

自古以来，人类一直不懈地尝试研究移动性的科学，这一努力是由物体的微观和宏观轨迹运动中涌现的基本法则驱动的[1]-[4]。轨迹研究可以追溯到1960年代。研究人员使用各种标记方法追踪动物的移动轨迹，首次发现移动行为模式具有地理特征和正向性等模式[5]。到了20世纪末，随着全球定位系统（GPS）和地理信息系统技术的快速发展，人们开始能够长期、高精度和高效率地追踪空间移动轨迹。这包括志愿者定位数据、装备GPS的出行轨迹、移动终端定位和通信记录[6]、[7]。这些进步推动了轨迹研究作为一个学科的兴起，其应用范围广泛，包括智能交通[8]-[10]、公共安全[11]-[13]和商业服务[14]-[16]等领域。 然而，高度精细化轨迹记录和定量的时空分布数据的有效管理与挖掘提出了一个亟待解决的挑战。在过去的二十年中，许多技术被提出用于处理、管理、分析和挖掘轨迹数据[31]-[33]，导致了轨迹计算的全面框架和理论的发展。这包括轨迹计算分析的全过程拆解，涵盖轨迹预处理、轨迹索引和检索、轨迹模式挖掘、不确定性建模等。这些过程通常是松散耦合的，针对不同阶段开发了众多高效算法。例如，在轨迹预处理中，开发了一系列技术，如地图匹配和停留点检测[33]。对于轨迹检索和索引，开发了一系列技术，包括相似性链接、区域查询、语义查询等[23]、[34]。尽管有这些进展，以下挑战仍然存在：1) 缺乏统一性。传统轨迹分析和处理问题需要根据问题场景使用不同的工具，如基于规则和概率的工具，使得问题建模过程难以统一。2) 复杂性。原始轨迹数据通常包含复杂的时空异质性和自相关性，通过特征工程和简单的专家手工规则设计难以捕获其内在特征。3) 可适应性。传统轨迹技术在处理大规模数据时常常面临维度的诅咒，通常难以适应新的应用场景。

近年来，我们见证了深度学习在各个领域的迅速崛起，这归功于其卓越的端到端建模和学习能力。更令人惊奇的是，深度学习技术的应用范围已经超越了传统的数据类型，如图像、音频和文本序列，扩展到空间和时间域中的更一般或不规则数据[36]。在这些中，轨迹数据最为代表性，涵盖了空间、时间和语义的多个维度。因此，利用深度学习的强大力量，研究人员开始重塑轨迹数据计算框架中的各个关键组成部分，包括高效的轨迹数据管理[23]、有效的轨迹数据挖掘[24]和轨迹数据的各种新颖下游应用[27]。具体而言，通过丰富的神经网络架构和学习范式，传统问题无缝转化为学习任务。此外，通过结合来自空间统计、几何和地理等领域的专家先验知识，这些模型能够有效捕获时空轨迹中的复杂模式，促进各种新颖应用的开发。在图1中，我们提供了深度学习用于轨迹数据的概述。相关综述。尽管越来越多的研究采用深度学习方法进行各种轨迹计算任务，现有的综述往往关注于有限范围内的特定视角，没有一项综述全面总结深度学习应用于轨迹数据的演化和进展。例如，一些研究分别深入探讨了轨迹管理的方面，如聚类分析[20]、[37]、相似性测量[28]和隐私保护[38]。同样，某些研究独立关注于轨迹数据挖掘的元素，包括位置预测[22]、[39]、位置推荐[40]和到达时间估计[16]、[41]。然而，它们的探索不仅限于特定场景，而且只是部分提及深度学习技术。此外，考虑到轨迹数据是一种重要的时空数据类型，也是智能交通分析的基础，许多综述阐述了深度学习在时空数据挖掘[42]-[44]和智能交通[45]、[46]中的相关问题和应用，但对轨迹内容的覆盖有限。最近，[30]和[24]提供了一项专注于应用深度学习模型于轨迹数据挖掘的综述，但完全忽略了轨迹数据管理的内容。此外，一系列关于基础模型[47]的最新工作已经重塑了深度学习社区，例如大型语言模型（LLMs）[48]、[49]。一些研究目前正在将它们结合用于轨迹任务，但尚无相关综述出现。上述事实强调了进行全面综述的必要性。表1概述了我们的综述与其他类似综述之间的区别。

我们的贡献。为了填补现有文献中的空白，本研究提出了一项系统且最新的关于深度学习在轨迹计算领域研究现状的综述。我们的贡献总结如下：

第一个系统综述。据我们所知，这是第一个全面综述轨迹计算领域深度学习最新发展的系统性综述。我们不仅提供了该领域最广泛的研究范围，还展示了最深刻的进步，为读者提供了这一主题全面且最新的理解。 统一和结构化的分类法。我们提出了一个统一和结构化的分类法，将轨迹计算中的深度学习现有主题分为三个不同部分。在第一部分中，我们详细描述了轨迹数据的形式，涵盖了不同文献中发现的所有轨迹形式。在第二和第三部分中，我们识别了轨迹管理和轨迹挖掘中常见的各种研究任务。在最后部分，我们介绍了其在各个领域中的实际应用和解决方案，强调了其功能多样性和实际意义。这种结构化分类可以帮助读者充分理解这一领域的连贯发展路线。

全面的资源集合。在本文中，我们启动了DL4Traj项目，在其中我们整理了迄今为止最全面的轨迹相关数据集和资源集合。我们已将这个持续更新的开源仓库面向不同社区的个人，包括研究人员、工程师和城市规划师。该仓库涵盖了一系列关于轨迹数据挖掘和管理的深度学习方法和基础模型的专业论文。它还整合了多种类型的数据集，包括GPS、签到、仿真以及相关的统计信息。

未来方向和机会。值得注意的是，深度学习最近已经进入了大型基础模型的时代，LLMs是一个代表性的例子。由于它们新兴的知识智能，它们最近开始席卷整个研究社区。一些轨迹挖掘任务也已经通过结合LLMs被重新塑造。在本文中，我们还结合并分析了这一领域的一些最新工作。此外，我们还概述了几个其他潜在的未来研究方向，并提供了可能引导和激发轨迹计算领域未来发展方向的见解和建议。论文组织。余下部分如下组织：第2节提供了轨迹的基本定义、多样的数据格式、轨迹的属性分析和深度学习的背景知识。第3节提出了轨迹计算的深度学习分类法，将在第4节详细介绍。第5节概括了多种应用场景和资源。第6节概述了未来研究的有前景的途径。最后，在第7节我们总结了这篇综述。

概述与分类

本综述文章的分类法在图4中呈现，该分类法经过精心设计，旨在对轨迹计算中的应用和功能进行分类，通过深度学习实现。这种结构化的方法促进了对它们在轨迹计算中角色的全面理解。

深度学习在轨迹数据管理中的应用。轨迹管理旨在对记录的原始轨迹数据进行各种操作，包括数据预处理以实现数据清洗、高效数据存储、高质量数据分析和清晰可视化。深度学习已无缝整合到每个阶段，以便轻松促进和推进后续挖掘任务。

深度学习在轨迹数据挖掘中的应用。通过整合深度学习技术，轨迹挖掘为六大主要任务提供了一种全面的解决方案，这些任务分为判别型和生成型，即与轨迹相关的预测、与轨迹相关的推荐、轨迹分类、行程时间估计、异常检测和移动性生成。这一进步推动了轨迹计算的前沿研究和实际应用。

应用与资源。深度学习在连接轨迹管理和挖掘的同时，已证明在生成个人服务、商业平台和政策指导等多个领域的实际应用中非常有效。此外，还对公开可用的数据集和工具进行了全面探索。

深度学习在轨迹数据中的应用

深度学习已无缝地整合了各种管理任务，显著简化了手工过程并提高了性能。我们进一步讨论了大型语言模型（LLMs）在轨迹管理领域的潜在关键作用。关于预处理，LLMs能够智能地清洗数据和恢复缺失的语义信息。在存储和检索方面，LLMs可以自动化查询接口。对于分析，LLMs能够自动识别行为群组和常见模式。在可视化和交互方面，LLMs可以提供丰富的语义解释，并实现自然交互。总结来说，我们相信通过整合现有的深度学习模型，LLMs将为轨迹管理技术带来自动化解决方案，并提供更多的语义解释信息。在过去的十年里，深度学习模型已广泛应用于轨迹数据挖掘任务，并在智慧城市和智能交通系统的发展等倡议中得到了广泛应用。此外，我们进一步讨论了大型语言模型（LLMs）在未来轨迹挖掘领域的潜在关键用途。对于基础挖掘任务，如预测、分类、异常检测和生成，一种方法涉及微调已解锁LLMs的能力。此外，这些任务可能过渡到零样本执行技术，如语言提示。在决策任务，如旅行推荐中，LLMs可以作为中心智能代理，与其他模型协同工作，提供个性化决策。

我们在图12中勾勒了数据、模型和算法这一核心三元组的当前状态和挑战。数据：

标准化轨迹数据管理：缺乏标准化阻碍了轨迹数据的统一处理和应用，需要开放和标准化的管理方法以实现无缝集成。

获取多源语义轨迹数据：尽管社交媒体等来源提供了更丰富的数据，有效的整合仍然具有挑战性。需要先进的技术来获取和整合不同的轨迹数据，以增强深度学习模型的多模态理解。

构建全面的轨迹数据集：大规模、高质量的轨迹数据集对于深度学习模型训练至关重要。平衡多样性和用户隐私，同时确保时空覆盖，对于改善模型泛化至关重要。

模型：

建模运动行为的不确定性：处理轨迹数据的不确定性，包括它的稀疏性、噪声和长尾分布，需要能够适应现实世界移动性复杂性的鲁棒模型。

统一模型设计：特定的模型架构限制了在轨迹数据中探索统一模式的可能性。特别是为不同任务设计统一模型具有挑战性。鲁棒、可靠且稳定的轨迹建模：现有模型在极端异常值方面缺乏鲁棒性，特别是在实际应用中。确保模型的可靠性是必要的。

算法：融合多源轨迹数据的融合算法：现有的多源轨迹数据算法可以更高效。融合不同数据类型时，需要鲁棒的算法以实现全局解释能力。完全端到端算法设计：完全端到端的算法简化了结构并提高了效率，解决了当前轨迹模型多阶段性质的问题。轻量级和高效的算法设计：在资源受限的边缘设备上提高轨迹计算算法的效率对于实际应用至关重要。

结论

在这项综述中，我们系统地探索了轨迹计算与深度学习之间充满希望的交汇点。我们的统一框架揭示了对深度学习在轨迹计算中应用的结构化理解，将其细分为轨迹数据管理和挖掘的深度学习。这项研究为研究人员和实践者提供了一个简洁有序的视角。通过审视现有方法，我们提供了深度学习重塑轨迹计算和移动性科学领域的核心贡献的新见解。此外，我们总结了应用场景和资源，提供了未来发展的路线图。我们的综述解决了挑战，促进了讨论，并建议了新的方向。

成为VIP会员查看完整内容