Validating the safety of autonomous systems generally requires the use of high-fidelity simulators that adequately capture the variability of real-world scenarios. However, it is generally not feasible to exhaustively search the space of simulation scenarios for failures. Adaptive stress testing (AST) is a method that uses reinforcement learning to find the most likely failure of a system. AST with a deep reinforcement learning solver has been shown to be effective in finding failures across a range of different systems. This approach generally involves running many simulations, which can be very expensive when using a high-fidelity simulator. To improve efficiency, we present a method that first finds failures in a low-fidelity simulator. It then uses the backward algorithm, which trains a deep neural network policy using a single expert demonstration, to adapt the low-fidelity failures to high-fidelity. We have created a series of autonomous vehicle validation case studies that represent some of the ways low-fidelity and high-fidelity simulators can differ, such as time discretization. We demonstrate in a variety of case studies that this new AST approach is able to find failures with significantly fewer high-fidelity simulation steps than are needed when just running AST directly in high-fidelity. As a proof of concept, we also demonstrate AST on NVIDIA's DriveSim simulator, an industry state-of-the-art high-fidelity simulator for finding failures in autonomous vehicles.


翻译:验证自主系统的安全性通常需要使用能充分捕捉真实世界情景变异性的高纤维模拟模拟器。 但是, 通常不可能彻底搜索模拟假设的失败空间。 适应性压力测试( AST) 是一种方法, 使用强化学习来发现系统最可能的失败。 使用深强化学习解答器的AST 显示在发现一系列不同系统失败方面是有效的。 这种方法一般涉及进行许多模拟, 当使用高纤维模拟器时可能非常昂贵。 为了提高效率, 我们提出了一个方法, 首先在低纤维模拟器中发现失败。 然后, 它使用后向算法, 利用单一专家演示来训练深神经网络政策, 将低纤维性失灵调整为高纤维。 我们创建了一系列自主的车辆验证案例研究, 代表了低纤维性和高纤维模拟器的某些方法, 比如时间分解。 我们通过一系列的案例研究, 显示, 在低纤维- 高动力- 动力- 动力- 工具- 高级智能- 工具的模拟方法, 也能够直接发现比高智能- 高级智能- 高级智能- 的模拟- 动作- 动作- 动作- 工具- 方法, 当我们需要的高度的模拟- 高度的模拟- 动作- 发现时, 高度的模拟- 需要- 高度的动作- 高度- 发现- 高度- 高级- 动作- 动作- 动作- 高度- 发现- 高度- 高度- 高度- 高度- 动作- 动作- 动作- 动作- 动作- 动作- 方法可以直接测试- 发现- 方法可以发现高度- 高度- 性- 性- 性- 高度- 发现- 和高度- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性- 性-

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
已删除
创业邦杂志
5+阅读 · 2019年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年9月28日
Arxiv
6+阅读 · 2021年6月24日
Learning to Importance Sample in Primary Sample Space
VIP会员
相关资讯
已删除
创业邦杂志
5+阅读 · 2019年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员