论文解读者:北邮 GAMMA Lab 硕士生 庄远鑫
1 引言 异质信息网络的概念自 2009 年首次提出以来,迅速成为数据挖掘领域的研究热点,并在这类网络上开发了许多创新性的数据挖掘任务。此外,还开发了一些独特的分析技术来展示异质信息网络的好处。特别是,随着大数据时代的到来,异质信息网络为大数据中复杂对象及其关系的建模和分析提供了一种有效的途径。本文将介绍两篇滴滴在KDD 2020上发表的利用异质信息网络解决实际问题的工作。第一个工作是《HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival》,提出异质时空图卷积网络用于预估到达时间。第二个工作是《Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations》,提出一种通用的在线推荐异质信息融合框架。 2 HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival 2.1 动机与贡献 预估到达时间(ETA)是智能交通系统的核心功能,它测量车辆预计从起点到达某个目的地时的旅行时间。通过挖掘复杂的时空信息来准确的估计行程时间可以节省用户时间和优化车辆调度。这篇文章首次将异质信息网络应用于 ETA 任务。从时间和空间两个角度提取异质信息,并提出了 HetETA 框架来融合它们并学习对 ETA 任务的表示。在一个大规模城市道路网中的四个真实世界车辆出行数据集上进行的实验验证了提出的模型明显优于其他方法。 2.2 模型HetETA 由三个组件组成,分别用于学习最近时段、每日时段和每周时段的时空异质信息。三个组件由一个全连接层连接,并输出预测值。
鉴于 GNNs 已被证明是一种成功的学习矢量化节点表示的基于图结构的模型,使用图神经网络来学习空间相关性,并在异质信息的道路网络和基于车辆轨迹的网络上提取有意义的表示。最近的研究表明,与 RNNs 相比,CNNs 具有并行化、可训练性和推理速度快等优点。因此,使用 CNNs 来分析时间序列轴上的时间相关性。GNNs 和 CNNs 在 3 个双拼三明治结构(Double-stuffed sandwich layer)下协同工作,分别学习近期周期、每日周期和每周周期的时空异质信息的相关性。在双层夹层内进行了层归一化处理,以解决过拟合问题。 2.3 实验数据集实验部分是在中国辽宁省省会沈阳进行了实验。根据滴滴出行提供的商业地图构建了沈阳市的公路网。它是一个有74,685个顶点和94,127条边的多关系图,其中关系类型表示路段之间的转弯方向。节点特征分为静态特征和动态特征。静态特征(包括道路类型、路段宽度、路段长度、限速、车道数等)不会随时间变化。相反,动态特征以 5 分钟为周期变化,计算每个路段中过往车辆的平均速度,并将其作为动态特征。 实验结果 可以看出 HetETA 在四个数据集上比最具竞争力的基线分别降低了1.99%、1.59%、2.13%和1.79%的 MAPE。ETA 任务的性能很难提高,MAPE 略有降低通常意味着 ETA 任务具有很高的商业应用价值。 3 Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations 3.1 动机与贡献滴滴出行服务于亿万活跃乘客和数百万活跃司机。针对日常运营的不同需求,滴滴出行构建了乘客增长的优惠券推荐、司机激励的产品推荐、订单增长的广告推荐等十几种不同类型的推荐场景。在不同的推荐场景中,推荐的项目完全不同,可获得的信息也大相径庭。因此,如何构建一个统一的推荐系统来解决所有这些场景的推荐需求是一个巨大的挑战,特别是在面对用户与项目交互的稀疏性问题时。这篇文章提出了一种新的异质图融合框架 Gemini,该框架不依赖任何辅助信息,通过新颖有效的网络变换更有效地处理异质图。因此,Gemini 可以应用于各种推荐方案,并取得满意的效果。这是第一个将异质图转换为两个不遗漏任何关键拓扑信息的半同质图的工作。3.2 模型