The problem of autonomous navigation is to generate a set of navigation references which when followed move the vehicle from a starting position to and end goal location while avoiding obstacles. Autonomous racing complicates the navigation problem by adding the objective of minimising the time to complete a track. Solutions aiming for a minimum time solution require that the planner is concerned with the optimality of the trajectory according to the vehicle dynamics. Neural networks, trained from experience with reinforcement learning, have shown to be effective local planners which generate navigation references to follow a global plan and avoid obstacles. We address the problem designing a reward signal which can be used to train neural network-based local planners to race in a time-efficient manner and avoid obstacles. The general challenge of reward signal design is to represent a desired behavior in an equation that can be calculated at each time step. The specific challenge of designing a reward signal for autonomous racing is to encode obstacle-free, time optimal racing trajectories in a clear signal We propose several methods of encoding ideal racing behavior based using a combination of the position and velocity of the vehicle and the actions taken by the network. The reward function candidates are expressed as equations and evaluated in the context of F1/10th autonomous racing. The results show that the best reward signal rewards velocity along, and punishes the lateral deviation from a precalculated, optimal reference trajectory.


翻译:自主导航的问题在于产生一套导航参照标准,使车辆从起始位置到最终目标位置,在避免障碍的同时避免障碍。自动赛车使导航问题复杂化,增加了将时间减少到最低限度以完成轨道的目标。最短时间解决方案要求规划者关注根据车辆动态优化轨道。根据强化学习经验培训的神经网络显示是有效的当地规划者,产生导航参考标准,以遵循全球计划,避免障碍。我们处理的问题是设计奖励信号,用来训练以神经网络为基础的当地规划者以具有时间效率的方式进行竞赛,避免障碍。奖励信号设计的总体挑战在于代表一种理想的行为,方程式可按每一步计算。为自动赛车设计奖励信号的具体挑战在于将无障碍、时间最佳赛车轨标编码成一个明确信号,我们建议采用几种方法,根据车辆位置和速度的组合以及网络采取的行动,对理想赛车行为进行校正。奖励职能候选人的表现是方程式的方程式,在最佳轨迹上显示最佳的轨迹。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
已删除
将门创投
4+阅读 · 2017年11月1日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月7日
VIP会员
相关资讯
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
已删除
将门创投
4+阅读 · 2017年11月1日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员