Deep reinforcement learning is actively used for training autonomous car policies in a simulated driving environment. Due to the large availability of various reinforcement learning algorithms and the lack of their systematic comparison across different driving scenarios, we are unsure of which ones are more effective for training autonomous car software in single-agent as well as multi-agent driving environments. A benchmarking framework for the comparison of deep reinforcement learning in a vision-based autonomous driving will open up the possibilities for training better autonomous car driving policies. To address these challenges, we provide an open and reusable benchmarking framework for systematic evaluation and comparative analysis of deep reinforcement learning algorithms for autonomous driving in a single- and multi-agent environment. Using the framework, we perform a comparative study of discrete and continuous action space deep reinforcement learning algorithms. We also propose a comprehensive multi-objective reward function designed for the evaluation of deep reinforcement learning-based autonomous driving agents. We run the experiments in a vision-only high-fidelity urban driving simulated environments. The results indicate that only some of the deep reinforcement learning algorithms perform consistently better across single and multi-agent scenarios when trained in various multi-agent-only environment settings. For example, A3C- and TD3-based autonomous cars perform comparatively better in terms of more robust actions and minimal driving errors in both single and multi-agent scenarios. We conclude that different deep reinforcement learning algorithms exhibit different driving and testing performance in different scenarios, which underlines the need for their systematic comparative analysis. The benchmarking framework proposed in this paper facilitates such a comparison.


翻译:深度强化学习正在积极用于在模拟驾驶环境中训练自动驾驶策略。由于各种强化学习算法的大量可用性以及在不同驾驶场景中缺乏其系统比较,我们不确定哪些算法更有效地训练单智能体和多智能体驾驶软件的策略。一个用于比较深度强化学习在基于视觉的自主驾驶中的基准框架将为训练更好的自动驾驶汽车驾驶策略开辟可能性。为应对这些挑战,我们提供了一个开放且可重复使用的基准框架,用于系统评估和比较分析单个和多个驾驶环境下深度强化学习算法的自主驾驶。使用该框架,我们进行了离散和连续行动空间深度强化学习算法的比较研究,并提出了一个全面的多目标回报函数,用于评估基于深度强化学习的自主驾驶代理。我们在仅基于视觉的高保真度城市驾驶模拟环境中运行实验。结果表明,只有部分深度强化学习算法在各种多智能体环境设置下的训练中在单智能体和多智能体场景中表现更加稳健。例如,在单个和多个驾驶场景中,基于A3C和TD3的自动驾驶汽车的表现相对更好,具有更稳健的行动和最小的驾驶误差。我们得出结论,不同的深度强化学习算法在不同的场景中表现出不同的驾驶和测试性能,这强调了对它们进行系统比较分析的需求。本文提出的基准框架有助于进行这样的比较。

0
下载
关闭预览

相关内容

【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
36+阅读 · 2023年4月17日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
专知会员服务
206+阅读 · 2019年8月30日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
【泡泡一分钟】动态环境下稳健的单目SLAM
泡泡机器人SLAM
13+阅读 · 2018年3月22日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Arxiv
21+阅读 · 2022年11月8日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
36+阅读 · 2023年4月17日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
专知会员服务
206+阅读 · 2019年8月30日
相关资讯
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
【泡泡一分钟】动态环境下稳健的单目SLAM
泡泡机器人SLAM
13+阅读 · 2018年3月22日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员