【泡泡一分钟】自动驾驶汽车安全强化学习

2019 年 5 月 8 日 泡泡机器人SLAM

每天一分钟,带你精读机器人顶级会议文章

标题:Safe Reinforcement Learning on Autonomous Vehicles

作者:David Isele, Alireza Nakhaei, and Kikuo Fujimura

来源:2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)

翻译:王丹

审核:颜青松,陈世浪

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

      在强化学习方面已经取得了许多进展,但是对学习过程的典型无约束探索阻碍了这些方法在许多安全关键应用中的采用。最近安全强化学习的工作使用理想化模型来实现其保证,但这些模型不容易适应现实世界系统的随机性或高维性。我们研究预测如何为约束探索提供一般和直观的框架,并展示如何使用它来安全地学习自动驾驶车辆上的交叉口处理行为。

图3 流程图

图4 左图:整个训练过程中与交通车辆的最小距离。中心:使用不同政策比较与交通车辆的最小距离。训练网B以使制动最小化,训练网M以使最小距离最大化。右:交通车花费制动的时间量。我们假设自我车辆负责所有交通制动。

图5 比较超时惩罚对网络训练的影响,以最大化最小距离。超时显示为黑色。


结论:本文提出了一种安全强化学习的框架,使用预测来掩盖不安全的行为。将此方法应用于自动驾驶域,以学习改善无符号交叉口处理性能的策略。具体来说,1)最大限度地减少对其他车辆的干扰; 2)在固定时间窗口内仍然导航交叉路口时最大化安全裕度。

虽然我们可以使用预测的安全保证不像文献中提出的其他方法那样强大,但框架更通用并且可能更适用于许多现实世界的应用。由于我们采取掩模行动(masking actions),我们知道其中一些是安全的,以便在处理不确定性时提供安全边际,最终政策可能不是最理想的。这表明开放性问题既涉及开发更复杂的预测模块,也更仔细地表征与之相关的遗憾。


Abstract

There have been numerous advances in rein-forcement learning, but the typically unconstrained exploration of the learning process prevents the doption of these methods in many safety critical applications. Recent work in safe reinforcement learning uses idealized models to achieve their guarantees, but these models do not easily accommodate the stochasticity or high-dimensionality of real world systems. We investigate how prediction provides a general and intuitive framework to constraint exploration, and show how it can be used to safely learn intersection handling behaviors on an autonomous vehicle.


如果你对本文感兴趣,请点击点击阅读原文下载完整文章,如想查看更多文章请关注【泡泡机器人SLAM】公众号(paopaorobot_slam)

百度网盘提取码:ajn4


欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/bbs/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
4

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
155+阅读 · 2020年6月14日
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
175+阅读 · 2020年2月8日
专知会员服务
237+阅读 · 2020年1月23日
【泡泡一分钟】基于表面的自主三维建模探索
泡泡机器人SLAM
9+阅读 · 2019年9月10日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
【泡泡一分钟】无地图驾驶的深层语义车道分割
泡泡机器人SLAM
3+阅读 · 2019年3月11日
【泡泡一分钟】动态环境下的高效长时间建图
泡泡机器人SLAM
6+阅读 · 2019年2月1日
【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM
泡泡机器人SLAM
21+阅读 · 2018年12月18日
【泡泡一分钟】动态环境下稳健的单目SLAM
泡泡机器人SLAM
13+阅读 · 2018年3月22日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
VIP会员
相关资讯
【泡泡一分钟】基于表面的自主三维建模探索
泡泡机器人SLAM
9+阅读 · 2019年9月10日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
【泡泡一分钟】无地图驾驶的深层语义车道分割
泡泡机器人SLAM
3+阅读 · 2019年3月11日
【泡泡一分钟】动态环境下的高效长时间建图
泡泡机器人SLAM
6+阅读 · 2019年2月1日
【泡泡一分钟】CVI-SLAM –协同视觉惯性SLAM
泡泡机器人SLAM
21+阅读 · 2018年12月18日
【泡泡一分钟】动态环境下稳健的单目SLAM
泡泡机器人SLAM
13+阅读 · 2018年3月22日
Top
微信扫码咨询专知VIP会员