每天一分钟,带你精读机器人顶级会议文章
标题:Safe Reinforcement Learning on Autonomous Vehicles
作者:David Isele, Alireza Nakhaei, and Kikuo Fujimura
来源:2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
翻译:王丹
审核:颜青松,陈世浪
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
在强化学习方面已经取得了许多进展,但是对学习过程的典型无约束探索阻碍了这些方法在许多安全关键应用中的采用。最近安全强化学习的工作使用理想化模型来实现其保证,但这些模型不容易适应现实世界系统的随机性或高维性。我们研究预测如何为约束探索提供一般和直观的框架,并展示如何使用它来安全地学习自动驾驶车辆上的交叉口处理行为。
图3 流程图
图4 左图:整个训练过程中与交通车辆的最小距离。中心:使用不同政策比较与交通车辆的最小距离。训练网B以使制动最小化,训练网M以使最小距离最大化。右:交通车花费制动的时间量。我们假设自我车辆负责所有交通制动。
图5 比较超时惩罚对网络训练的影响,以最大化最小距离。超时显示为黑色。
结论:本文提出了一种安全强化学习的框架,使用预测来掩盖不安全的行为。将此方法应用于自动驾驶域,以学习改善无符号交叉口处理性能的策略。具体来说,1)最大限度地减少对其他车辆的干扰; 2)在固定时间窗口内仍然导航交叉路口时最大化安全裕度。
虽然我们可以使用预测的安全保证不像文献中提出的其他方法那样强大,但框架更通用并且可能更适用于许多现实世界的应用。由于我们采取掩模行动(masking actions),我们知道其中一些是安全的,以便在处理不确定性时提供安全边际,最终政策可能不是最理想的。这表明开放性问题既涉及开发更复杂的预测模块,也更仔细地表征与之相关的遗憾。
Abstract
There have been numerous advances in rein-forcement learning, but the typically unconstrained exploration of the learning process prevents the doption of these methods in many safety critical applications. Recent work in safe reinforcement learning uses idealized models to achieve their guarantees, but these models do not easily accommodate the stochasticity or high-dimensionality of real world systems. We investigate how prediction provides a general and intuitive framework to constraint exploration, and show how it can be used to safely learn intersection handling behaviors on an autonomous vehicle.
如果你对本文感兴趣,请点击点击阅读原文下载完整文章,如想查看更多文章请关注【泡泡机器人SLAM】公众号(paopaorobot_slam)。
百度网盘提取码:ajn4
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/bbs/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com