【专知特邀】KDD2018 | 浙江大学和帝国理工大学最新工作（附代码和数据集）

2018 年 7 月 16 日 专知

【导读】专知内容小组特邀KDD2018交通速度预测工作第一作者为大家分享最新工作。交通速度预测容易受到各种因素的影响且缺少一个大型的包含各种信息的公开数据集。最近，浙江大学和帝国理工大学的科研人员发布了一个新的交通速度预测数据集，该数据集包含了用户在百度地图的查询记录、路网结构和道路属性等信息。针对各种不同类型的信息，科研人员分别设计了一种基于encoder-decoder框架的神经网络模型，并验证了各类信息的有效性。此文章已被KDD 2018接收。

作者 | 廖彬兵

整理 | Xiaowen

论文：Deep Sequence Learningwith Auxiliary Information for Traffic Prediction

论文链接：

https://arxiv.org/abs/1806.07380

论文代码：

https://github.com/JingqingZ/BaiduTraffic

论文数据集：https://ai.baidu.com/broad/introduction?dataset=traffic

论文腾讯视频介绍：

作者简介

廖彬兵，浙江大学人工智能所在读博士生，主要研究方向为人工智能、数据挖掘和机器学习。

摘要

实时准确的交通速度预测是智能交通系统（ITS）中的基本任务。我们试图结合三种隐式但重要的附加信息来提升交通速度预测的性能，并将其整合到encoder-decoder框架中。三种附加信息包括: 1)离线地理和社会信息，例如道路的宽度、车道数等属性和节假日、早晚高峰等信息；2)路网结构，交通拥堵一般发生在路口，路段的交通状况会受到周围道路的影响；3)在线地图查询信息，大量用户集中查询了某个地方，一段时间后，该地方可能会发生交通拥堵。我们在来自于百度地图的真实世界的数据集上做了定性和定量的实验，实验结果验证了方法的有效性。

引言

动机

实时准确的交通速度预测是智能交通系统中的一项基本且具备挑战性的任务。我们认为现有的方法还没有很好的解决该任务主要是由于以下三个因素的影响：

离线地理和社会因素。道路的地理因素会影响其交通状况。例如，主路和小路的交通模式就不太一样，并且交通拥堵经常会发生在路口。同时，交通状况还受到节假日、早晚高峰等社会因素的影响。

在线潜在影响。随着移动应用的广泛使用，一些地图类的应用（如百度地图、Google地图）积累了大量的信息可用于交通状况分析和预测。图1显示了2017年4月8日北京首都体育馆附近的平均交通速度和地图查询次数。t时刻的查询次数是通过累加那些查询目的地为首都体育馆且预计到达时间是t的查询得到。我们可以清楚地看到，当前的查询数（红色）在晚上18时比通常的查询数（蓝色）要多得多，这导致了交通速度的突然下降。值得注意的是，该查询具备长期可预见性（表2显示用户的平均旅行时间为46分钟），这将能够在ITS中提前获得交通拥堵的提示。更有意思的是，人群爆发式地在地图中查询同一个地方，表明这里会有一个活动，这里是“梁静茹演唱会”。

图1 2017年4月8日北京首都体育馆附近的交通速度（左）和在线地图查询数量（右）。红色的线表示的是当前的交通速度（或在线地图查询数量），蓝色的线表示平均的交通速度（或在线地图查询数量）。晚上19时，是梁静茹的首都体育馆演唱会。

由于交通数据的特殊性，以前对交通预测的研究通常使用较小的数据集进行实验，并且缺少公开可用的大规模交通预测数据集以供研究人员比较其模型并提出新模型。

目标

为了提升交通速度预测的性能，我们发布了一个大规模的交通数据集——Q-Traffic数据集，该数据集提供了交通速度数据以及各种离线和在线的附加信息。 Q-Traffic数据集中有三种附加信息：1)离线的地理和社会信息，包括节假日、早晚高峰、车道数、限速等级等；2)路网结构；3)在线地图查询信息。

表4显示了Q-traffic数据集的离线地理和社会信息，它包含了大量的类别特征，从而使得输入特征空间十分稀疏，如speedclass这一字段就包含了8种限速等级。通过特征变换来学习和利用这些稀疏特征是有效的和可解释的，但需要大量的特征工程。相反，深度神经网络可以通过低维密集的表征来获得更好的泛化能力。受wide & deep的启发，我们通过wide特征变换来学习稀疏的地理和社会属性的相互作用，同时在给定变换后特征的情况下使用deep的encoder-decoder来预测交通状况。

此外，由于道路网络中的空间依赖性，利用GraphCNN来嵌入相邻路段的交通状况是一种比较直接的方法。具体来说，对于某个路段，首先根据PageRank分数选择其相邻路段，这些路段代表了其对于该路段的在空间上的影响。然后采用Graph CNN和encoder-decoder来预测交通状况。

来自大量用户的在线地图查询，这些查询与道路的未来状态有关，也可能会影响交通状况。例如，假设我们在下午17时之前获得了首都体育馆附近路段的历史交通数据，知道许多人将在下午18时左右抵达北京首都体育馆，这将有效提升下午18时首都体育馆附近交通预测的性能。我们量化了在线查询对路段的潜在影响，并采用了encoder-decoder的方式来将其整合进交通速度预测中。

Q-Traffic数据集

Q-Traffic数据集总共包括3个子数据集：查询子数据集、交通速度子数据集和路网子数据集。

查询子数据集

该子数据集的包含了来源于百度地图的北京市2017年4月1日至2017年5月31日的地图查询，拥有出发时间、预计到达时间、出发地和目的地等字段，数据样例可见图2左上角。预估到达时间后，我们也可以进行活动发现——短时间内某个区域出现了大量的地图查询，具体细节见论文。表1展示了一些发现的活动例子。地图查询子数据集的统计情况可见表2。

图2 从地图查询中挖掘潜在的交通影响和活动

表1 一些发现的活动例子

表2 地图查询子数据集的统计情况

交通速度子数据集

该子数据集的空间和时间范围同地图查询子数据集，都是北京市2017年4月1日至2017年5月31日。该子数据集的统计情况和空间分布如表3和图3。

表3 交通速度子数据集的统计情况

图3 交通速度子数据集的空间分布

路网子数据集

由于交通数据的时空性，道路网络的拓扑结构也将有助于预测交通。表4显示了路网子数据集的字段。对于交通速度子数据集中的每个路段，道路网络子数据集提供了该路段的起始节点snode和结束节点enode，基于该拓扑结构可构建道路网络。此外，该子数据集还提供了路段的各种地理属性，例如宽度，长度，车速限制和车道数量。与此同时，我们还提供了一些社会属性信息，如工作日，周末，节假日，高峰时段和非高峰时段。

表4 路网子数据集的字段

与其他数据集的对比

表5比较了不同的交通速度预测数据集。最有名的交通速度预测数据集是Caltrans Performance Measurement System (PeMS)。但是，它没有提供道路属性和其他辅助信息。在过去的几年中，研究人员用小型或（和）私人数据集进行了实验。 Q-Traffic是一个大型的公共数据集，包含了离线（地理和社会属性，道路网络）和在线（地图查询）信息，可以帮助交通速度预测领域的研究。

表5 不同交通速度预测数据集的比较

方法

基本的Seq2Seq模型

对于交通速度预测，我们可以直接采用基本的Seq2Seq模型。图4展示了用于交通速度预测的Seq2Seq模型，它采用的是encoder-decoder的框架，其中encoder和decoder均由一个LSTM组成。encoder将输入的交通速度序列映射成一个向量，这个存储着过去时刻的交通速度的向量会传给decoder，decoder根据传入的向量来预测未来的交通速度。

图4 基本的Seq2Seq模型

混合模型

我们的数据集提供了三种不同属性的信息，一种是表4的道路基本属性，我们采用了一种wide & deep的方式来学习道路基本属性对交通速度预测的影响；一种是表4的道路网络结构，我们采用了一个Graph CNN来学习周围区域的路段对某个路段的交通速度的影响；另一种是用户的地图搜索查询，我们将其进行预处理成序列数据，也采用了Seq2Seq的方式来学习地图搜索查询对交通速度的影响。最后，我们采用了一个混合的模型来学习预测交通速度，混合模型的网络结构如图5所示。

图5 可同时利用3种不同类型信息的交通速度预测混合模型

实验结果和分析

我们在活动期间和整个测试集上做了交通速度预测的实验，实验结果如表6和表7所示。实验结果均表明了三种不同类型的附加信息的有效性。由于活动期间的交通速度波动更大，因此活动期间的交通速度预测更为困难，活动期间的MAPE (Mean Absolute Percentage Error)也比整个测试集的MAPE更大。三种类型的附加信息中，相比于道路的基本属性和路网结构，地图搜索对交通速度预测性能的提升效果更好。

表6 整个测试集上的MAPE

表7 活动期间的MAPE

结束语

这篇文章提出了一个大规模的交通速度预测数据集Q-Traffic，针对数据集的三种不同属性的信息，分别采用了wide & deep的方式来学习道路基本属性对交通速度预测的影响；采用了Graph CNN来学习周围区域的路段对某个路段的交通速度的影响；将地图搜索查询进行预处理成时序数据，采用了Seq2Seq的方式来学习地图搜索查询对交通速度的影响。最后，采用了一个混合的模型将三种不同类型的信息都考虑进来，来学习预测交通速度。随着数据集的发布，我们希望能吸引更多的研究人员参与到交通速度预测的研究中来，从而提出更好更准确的交通速度预测模型。

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群：

【专知AI服务计划】专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取。欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

请关注专知公众号，获取人工智能的专业知识！

点击“阅读原文”，使用专知

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。