Imagine an autonomous robot vehicle driving in dense, possibly unregulated urban traffic. To contend with an uncertain, interactive environment with heterogeneous traffic of cars, motorcycles, buses, ..., the robot vehicle has to plan in both short and long terms in order to drive effectively and approach human-level performance. Planning explicitly over a long time horizon, however, incurs prohibitive computational cost and is impractical under real-time constraints. To achieve real-time performance for large-scale planning, this work introduces Learning from Tree Search for Driving (LeTS-Drive), which integrates planning and learning in a closed loop. LeTS-Drive learns a driving policy from a planner, which is based on sparsely sampled tree search. The learned policy in turn guides online planning for real-time vehicle control. These two steps are repeated to form a closed loop so that the planner and the learner inform each other and improve in synchrony. The entire system can learn on its own in a self-supervised manner, without human effort on explicit data labeling. We applied LeTSDrive to autonomous driving in crowded urban environments in simulation. Experimental results show clearly that LeTS-Drive outperforms either planning or learning alone, as well as open-loop integration of planning and learning.


翻译:想象一个自主的机器人车,驾驶的汽车密度大,可能不受管制的城市交通。为了与汽车、摩托车、公共汽车、...等各种交通的不确定的互动环境作斗争,机器人车必须进行短期和长期规划,以便有效推动和处理人的性能。但是,在很长的时间跨度上进行规划显然会产生令人望而却步的计算成本,在实时限制下是不切实际的。为了实现大规模规划的实时性能,这项工作引入了从树搜索中学习驾驶(LeTS-Drive),它将规划和学习纳入一个封闭循环。 LeTS-Drive从一个规划者那里学到了驾驶政策,该政策以稀有采样的树木搜索为基础。学习的政策反过来指导了实时车辆控制的在线规划。这两个步骤会反复形成一个封闭的循环,以便规划者和学习者相互沟通,并改进同步性。整个系统可以自己学习,而不用人的努力进行明确的数据标签。我们应用LTS-Drive在模拟的拥挤的城市环境中自行驾驶。实验结果清楚地显示LTS-D的学习模式是学习。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
VALSE Webinar 特别专题之产学研共舞VALSE
VALSE
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
相关资讯
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
VALSE Webinar 特别专题之产学研共舞VALSE
VALSE
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员