基于图神经网络的运输网络数据挖掘：综述与展望

摘要

运输网络中的数据挖掘（DMTN）指的是利用多种时空数据进行各种交通任务，包括模式分析、交通预测和交通控制。图神经网络（GNNs）在许多DMTN问题中至关重要，因为它们能够有效表示实体之间的空间关联。从2016年到2024年，图神经网络在DMTN中的应用已扩展到多个领域，如交通预测和运营。然而，现有的综述主要集中在交通预测任务上。为填补这一空白，本研究提供了一个及时且富有洞察力的总结，重点介绍自2023年以来在学术界和工业界关于GNN在DMTN中应用的最新进展。首先，我们介绍并分析了各种DMTN问题，并概述了经典与最新的GNN模型。其次，我们深入探讨了三个领域的关键研究工作：（1）交通预测，（2）交通运营，以及（3）行业参与，如Google Maps、高德地图和百度地图。在这些方向上，我们讨论了基于交通问题的重要性和数据可用性的新研究机会。最后，我们汇总了数据、代码及其他学习材料，以促进跨学科的交流。本综述以自2023年以来GNN在DMTN研究中的最新趋势为驱动，旨在为各种交通问题（包括预测和运营）提供丰富的数据集和高效的GNN方法。 关键词：数据挖掘；运输网络；图神经网络；交通预测；交通运营

引言 2021年，Google开发并在全球范围内部署了一种图神经网络（GNN）模型，通过Google Maps预测运输网络中的预计到达时间（ETA）¹。这里的ETA预测指的是基于当前的道路交通情况，预测沿指定路线的旅行持续时间。该模型与基线模型相比，展示了优越的预测性能，并在洛杉矶、纽约、新加坡和东京等城市进行了案例研究。此外，它在美国、欧洲和亚洲的19个城市中，实现了负ETA预测的相对减少幅度在16%到51%之间（Derrow-Pinion等，2021）。这个项目克服了研究和生产中的挑战，惠及了全球用户在行程和路线规划方面的需求。作为近年来最具影响力的智能交通应用之一，该项目提出了三个关键问题，本综述旨在回答这些问题：

RQ1：什么是GNN，它在建模图结构数据中有哪些优势？
RQ2：GNN在运输网络中可能提供哪些实际应用？
RQ3：GNN在运输网络中的有前景的研究方向是什么？

ETA预测是运输网络数据挖掘（DMTNs）的一个实例，涉及从运输网络中的大量数据中提取和利用有价值的信息。DMTN包括使用各种交通数据进行数据收集、处理、融合、预测和操作。具体示例包括拥堵传播特征化（Luan等，2022）、标准交通预测任务（如交通拥堵预测）（Rahman和Hasan，2023b，Feng等，2023b，Bogaerts等，2020，Cui等，2020）、共享出行（Ke等，2021a）和电动滑板车需求预测（Song等，2023）。此外，DMTN还涵盖了交通数据补全（Chen等，2020，Nie等，2024，2025）、事故风险分析（Zhao等，2024）、系统韧性评估（Wang等，2020）和车辆路线优化（Liu和Jiang，2022）等内容。DMTN任务对于集成运输系统的感知和操作至关重要，以提升其效能。例如，通过应用交通补全和预测技术，在线地图导航平台可以构建时间序列交通概况，为私家车和公共交通用户提供高效的交通指导。尽管其重要性不言而喻，但许多DMTN任务仍然充满挑战，主要受以下三个因素的影响：（1）跨不同地点的空间交通状态关系的复杂性（Wu等，2020a，2021，Lan等，2022）；（2）交通网络对人类活动（如体育赛事）的依赖（Yao和Qian，2021）；（3）大城市中运输网络中大量的节点和边（Boeing，2020）。

为了解决上述问题，现有研究已将GNN应用于各种DMTN问题。GNN是专门为图结构数据设计的先进机器学习方法（Manessi等，2020，Veličković，2023，Corso等，2024）。这些模型将图卷积操作与神经网络架构相结合，捕捉沿图边的节点间关系（Scarselli等，2008，Kipf和Welling，2016，Veličković等，2017，Abu-El-Haija等，2019）。这一特性与描述实体间大量关系的需求无缝对接，例如推荐系统中的用户-物品交互（Ying等，2018a，Chen等，2024b）、药物发现中的蛋白质-蛋白质相互作用（Jiménez-Luna等，2020）、以及材料探索中的原子-原子接近性（Merchant等，2023）。在运输网络中，GNN推动了对DMTN问题中各种空间实体之间复杂相互关系的建模创新（Rahmani等，2023）。这些包括用于智能驾驶的车辆（Chen等，2021）、用于交通速度预测的传感器（Feng等，2023b）、用于出行行为预测的用户（Xue等，2024b）、用于旅行时间估算的路段（Fang等，2020）、用于打车服务的起始-目的地对（Ke等，2021b），以及用于空中交通密度预测的空域站点（Xu等，2023）。图神经网络在DMTN中的应用工作蓬勃发展，呼唤对这一领域进行系统的综述与展望。已有几篇综述总结了GNN架构及其在各领域的变种（见表1）。例如，Zhou等（2020）考察了包括图卷积网络（Kipf和Welling，2016）和门控GNN（Li等，2015）在内的通用GNN组件及其变体，并列举了这些模型在自然科学、计算机视觉和自然语言处理等领域的应用（直至2020年）。后续关于GNN的综述则集中于特定领域，如推荐系统（Wu等，2022）和时间序列分析（Jin等，2023b）。此外，Zhang等（2024a）考察了GNN的表达能力，专注于节点索引对GNN结果的影响。针对工业应用，Lu等（2024）总结了GNN在生物学、金融等多个工业领域的应用。然而，这些综述并未专门聚焦于运输网络。关于GNN在运输网络中的应用，我们列出了现有文献综述（见表2）。具体而言，Shaygan等（2022）讨论了用于预测交通速度（Li等，2017，Guo等，2021）、交通流量（Song等，2020）以及二者结合的GNN方法（Zheng等，2020）。Jiang和Luo（2022）列举了针对不同交通模式（如铁路、出租车和自行车）的交通流量和需求预测研究。然而，这两篇综述并未涵盖交通运营领域的研究，如交通信号控制（Devailly等，2021）。后续的综述弥补了这一空白，将GNN应用扩展到智能交通任务中的交通运营（Rahmani等，2023，Wei等，2023）。然而，它们并未包含由Google Maps（Derrow-Pinion等，2021）、高德地图（Dai等，2020）和百度地图（Fang等，2020）等数字服务在运输网络中的大规模行业部署。针对这些缺点的全面综述使我们能够识别出运输系统数据挖掘和管理中的新研究方向。本综述提供了关于GNN方法在DMTN问题中的应用的全面、最新总结，既面向学术界，也面向工业界（图1）。

首先，我们总结了关键的DMTN问题，包括交通预测和交通运营。其次，我们概述了GNN模型及其随着时间演变的变种（You等，2020）。接下来，我们分析了当前GNN在DMTN问题中的应用及未来的研究机会。最后，我们介绍了相关的在线数据集、代码和学习材料，以支持学术界和工业界未来的研究工作。我们的贡献如下：

我们从学术角度全面分析了现有的GNN研究，涵盖了交通预测和交通运营在各种交通网络组件中的应用，包括车辆、传感器位置、路段和空域。此外，我们还详细回顾了运输服务（如Google Maps）在研究进展和行业部署方面的情况，重点突出它们在问题定义和方法论开发上的专有性质，相较于学术方法（第4节）。
我们讨论了未来GNN研究方向，如时间间隔预测、模型简化、组合优化问题和交通安全管理，考虑到数据的可用性和方法的适用性（第5节）。
我们对GNN方法及其在运输网络中的应用进行了资源分类，包括开放数据集、代码和教程，重点介绍了2023年和2024年的相关资料（第6节）。

接下来的部分安排如下（图1）。第2节概述了各种DMTN问题，包括交通预测和运营。第3节讨论了基础的GNN模型及其进化变种。第4节回顾了GNN在运输网络中的学术和工业进展。第5节概述了新应用的未来研究方向。第6节总结了数据、代码和其他资源，旨在促进未来研究。最后，第7节对本综述进行总结。