Despite the leaps in the autonomous driving domain, autonomous vehicles (AVs) are still inefficient and limited in terms of cooperating with each other or coordinating with vehicles operated by humans. A group of autonomous and human-driven vehicles (HVs) which work together to optimize an altruistic social utility -- as opposed to the egoistic individual utility -- can co-exist seamlessly and assure safety and efficiency on the road. Achieving this mission is challenging in the absence of explicit coordination among agents. Additionally, existence of humans in mixed-autonomy environments create social dilemmas as they are known to be heterogeneous in social preference and their behavior is hard to predict by nature. Formally, we model an AV's maneuver planning in mixed-autonomy traffic as a partially-observable stochastic game and attempt to derive optimal policies that lead to socially-desirable outcomes using our multi-agent reinforcement learning framework. We introduce a quantitative representation of the AVs' social value orientation and design a distributed reward structure that induces altruism into their decision making process. Our trained altruistic AVs are able to form alliances, guide the traffic, and affect the behavior of the HVs to handle conflictive and competitive driving scenarios. As a case study, we compare egoistic AVs to our altruistic autonomous agents in a highway merging case study and demonstrate a significant improvement in the number of successful merges as well as the overall traffic flow and safety.


翻译:尽管自主驾驶领域出现了飞跃,但自治车辆在彼此合作或与人驾驶的车辆协调方面仍然效率低下和有限,而且有限。一组自主和人类驱动的车辆(HV)合力优化利他主义社会效用 -- -- 而不是自我主义个人效用 -- -- 能够无缝共存,确保道路上的安全和高效。在代理人之间缺乏明确协调的情况下,完成这项任务具有挑战性。此外,在混合自治环境中存在的人造成了社会两难处境,因为众所周知,他们有不同的社会偏好,他们的行为很难用自然来预测。形式上,我们模拟AV在混合自主交通中进行操纵规划,作为一种部分可观察的游戏,并试图利用我们的多剂强化学习框架来制定最佳政策,从而取得社会可喜的结果。我们采用AV的社会价值取向定量代表制,并设计一种分配的奖励结构,促使他们做出他们所知道的社会偏向性,他们的行为很难用自然来预测。我们经过训练的利他主义AV行为在混合自治交通中的操纵动作规划,作为一种可观的动态机动性机动性研究,从而形成一个具有竞争性的动态的动态的机动性研究,并影响一个动态的机动性研究。我们对动态的动态的动态的动态进行一个案例进行一个动态的机动性研究,并影响进行一个动态的机动性研究,并影响,作为一个动态的机动性研究,并影响,并影响着一个动态的机动性研究,作为一个动态的实验性研究的动态的实验性研究的实验性研究,作为一个典型的实验性研究的实验性研究的实验性研究的一个案例进行一个动态的实验性研究,作为一个典型的实验性研究,作为一个典型的实验性研究,作为一个典型的实验性研究的实验性研究的实验性研究的实验性研究的一个案例进行一个典型的实验性研究。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
12+阅读 · 2021年6月21日
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
VIP会员
相关资讯
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员