1. 背景
图1 主车规划轨迹跳变问题
图1中蓝色方块代表无人车,白色代表行人。上半部分描述的是在不带行人轨迹预测功能情况下无人车的行为。这种情况下,无人车会把行人当做静态物体,但由于每个时刻行人都会运动,导致无人车规划出来的行驶轨迹会随着时间不停地变化,加大了控制的难度,同时还可能产生碰撞的风险,这样违背了安全平稳行驶的目标。下半部分是有了行人轨迹预测功能情况下的无人车行为。这种情况下,无人车会预测周围行人的行驶轨迹,因此在规划自身行驶时会考虑到未来时刻是否会与行人碰撞,最终规划出来的轨迹更具有“预见性”,所以避免了不必要的轨迹变化和碰撞风险。
第二篇是CVPR 2019卡耐基梅隆大学&谷歌&斯坦福大学的工作,他们的工作同样使用LSTM来接收历史信息并预测行人的未来轨迹。不同于其他算法的地方在于,这个模型不仅接收待预测行人的历史位置信息,同时也提取行人外观、人体骨架、周围场景布局以及周围行人位置关系,通过增加输入信息提升预测性能。除了预测具体的轨迹,算法还会做粗粒度预测(决策预测),输出行人未来时刻可能所在的区域。
假设感知模块检测到当前N个行人的位置,如何计算第一个行人下一时刻的位置? Step 1计算其他人对于第一个行人的交互影响。将第i个行人在第t时刻的位置记为(一般是坐标x和y)。可以通过以下公式计算第一个行人的交互向量:
从上述公式可以大致看到,相对位置关系是最重要的计算指标,计算的函数f一般是一个神经网络。 Step 2 计算第一个行人下个时刻的位置。通常需要根据上一时刻的位置与交互向量:
上述公式中,计算的函数g同样是神经网络,即上面提到的长短期记忆神经网络LSTM。 |
图4 算法思路对比图 左:传统算法 右:StarNet
两两交互的方式存在两个问题:
(1) 障碍物2和3确实会影响障碍物1的运动,但是障碍物2和3之间同样也存在相互影响,因此不能直接将其他障碍物对待预测障碍物的影响单独剥离出来考虑,这与实际情况不相符。
(2) 两两计算消耗的资源大,如果有N个障碍物,那么两两交互就需要N的平方次计算,随着N的变大,计算量呈平方倍增长。我们希望障碍物之间的交互能否只计算1次而非N次,所有障碍物的轨迹预测都共享这个全局交互那就更好了。
基于上述两个问题,我们提出了一种新的模型,该模型旨在高效解决计算全局交互的问题。因为传统算法普遍存在计算两两交互的问题(即使是基于Attention注意力机制的Message Passing也很难考虑到全局的交互),本文想尝试通过一些更加简单直观的方式来考虑所有障碍物之间的全局交互,我们的算法大致思路如下:
图5 StarNet网络结构图
我们的算法结构如上图5所示,Host Network是基于LSTM的轨迹预测网络;Hub Network是基于LSTM的全局时序交互计算网络。在论文具体的实现中,首先Hub Network的静态地图模块是通过接受所有障碍物同一时刻的位置信息、全连接网络和最大池化操作得到一个定长的特征向量;然后动态地图模块使用LSTM网络对上述的特征向量进行时序编码,最终得到一个全局交互向量。Host Network首先根据行人(假设要预测第一个行人下时刻的位置)的位置去动态地图中查询自己当前位置区域内的交互,具体我们采用简单的点乘操作(类似于Attention机制)。最终自己的位置和交互一起输入LSTM网络预测下时刻的的位置。
实验阶段,我们与4种经典的算法作比较,使用的数据集为UCYÐ数据集,这两个数据集包含4个子场景,分别为ZARA-1/ZARA-2、UNIV、ETH、HOTEL。在预测过程中,所有算法根据每个行人过去3.2秒的运动轨迹,预测出它在未来3.2秒的轨迹。每0.4秒采样一个离散点,因此3.2秒的轨迹可以用8个轨迹离散点表示。对比的指标有:
(a)平均距离差ADE(Average Displacement Error):用算法预测出的轨迹到真实轨迹所有8个点之间的平均距离差。
(b)终点距离差FDE(Final Displacement Error):用算法预测出的轨迹与真实轨迹最后一个终点之间的距离差。
(c)前向预测时间以及参数量。
使用全局动态地图的形式来描述行人之间在时间和空间上的相互影响,更加合理,也更加准确。
Hub Network全局共享的特征提升了整个算法的计算效率。
[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, F. Li and S. Savarese, “Social lstm: Human trajectory prediction in crowded spaces,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE 2016, pp. 961-971.
[2] H. Wu, Z. Chen, W. Sun, B. Zheng and W. Wang, “Modeling trajectories with recurrent neural networks,” in 28th International Joint Conference on Artificial Intelligence (IJCAI). 2017, pp. 3083-3090.
[3] A. Gupta, J. Johnson, F. Li, S. Savarese and A. Alahi, “Social GAN: Socially acceptable trajectories with generative adversarial networks,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, pp. 2255-2264.
[4] A. Vemula, K. Muelling and J. Oh, “Social attention: Modeling attention in human crowds,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 1-7.
[5] Y. Xu, Z. Piao and S. Gao S, “Encoding crowd interaction with deep neural network for pPedestrian trajectory prediction,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, pp. 5275-5284.
[6] D. Varshneya, G. Srinivasaraghavan, “Human trajectory prediction using spatially aware deep attention models,” arXiv preprint arXiv:1705.09436, 2017.
[7] T. Fernando, S. Denma, S. Sridharan and C. Fookes, “Soft+hardwired attention: An lstm framework for human trajectory prediction and abnormal event detection,” arXiv preprint arXiv:1702.05552, 2017.
[8] J. Liang, L. Jiang, J. C. Niebles, A. Hauptmann and F. Li, “Peeking into the future: Predicting future person activities and locations in videos,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 5725-5734.
[9] A. Sadeghian, V. Kosaraju, Ali. Sadeghian, N. Hirose, S. H. Rezatofighi and S. Savarese, “SoPhie: An attentive GAN for predicting paths compliant to social and physical constraints,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 5725-5734.
[10] R. Chandra, U. Bhattacharya and A. Bera, “TraPHic: Trajectory prediction in dense and heterogeneous traffic using weighted interactions,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 8483-8492.
[11] J. Amirian, J. Hayet and J. Pettre, “Social Ways: Learning multi-modal distributions of pedestrian trajectories with GANs,” arXiv preprint arXiv:1808.06601, 2018.
炎亮,德恒,冬淳,华夏,均来自美团无人配送部。
---------- END ----------
文章推荐:
DataFun:
专注于大数据、人工智能领域的知识分享平台。
一个「在看」,一段时光!👇