In this paper, we consider the problem of training neural network (NN) controllers for nonlinear dynamical systems that are guaranteed to satisfy safety and liveness (e.g., reach-avoid) properties. Our approach is to combine model-based design methodologies for dynamical systems with data-driven approaches to achieve this target. We confine our attention to NNs with Rectifier Linear Unit (ReLU) nonlinearity which are known to represent Continuous Piece-Wise Affine (CPWA) functions. Given a mathematical model of the dynamical system, we compute a finite-state abstract model that captures the closed-loop behavior under all possible CPWA controllers. Using this finite-state abstract model, our framework identifies a family of CPWA functions guaranteed to satisfy the safety requirements. We augment the learning algorithm with a NN weight projection operator during training that enforces the resulting NN to represent a CPWA function from the provably safe family of CPWA functions. Moreover, the proposed framework uses the finite-state abstract model to identify candidate CPWA functions that may satisfy the liveness properties. Using such candidate CPWA functions, the proposed framework biases the NN training to achieve the liveness specification. We show the efficacy of the proposed framework both in simulation and on an actual robotic vehicle.


翻译:在本文中,我们考虑了对非线性动态系统神经网络控制员进行培训的问题,这些神经网络控制员能够保证满足安全和活性(例如,达到避免)特性。我们的方法是将动态系统的模型设计方法与数据驱动的方法结合起来,以实现这一目标。我们把注意力局限在使用校正式线性单位(ReLU)的神经网络控制员(NNN)的不线性上,众所周知,后者代表着连续的Plac-Wise Affine(CPWA)功能。根据动态系统的数学模型,我们计算了一个有限状态抽象模型,在CPWA控制员的所有可能情况下捕捉到闭闭路行为。我们的框架是将动态系统的模型设计方法与数据驱动方法结合起来,以数据驱动实现这一目标。我们在培训过程中与NCWA的重量预测操作员一起加强学习算法,以代表CPWA的功能来自CPWA功能中可被确认的安全家庭功能。此外,拟议的框架使用有限状态抽象模型来确定候选人CPWA功能,以所有可能的CPWA控制员之间的封闭性行为。我们用这种模拟模型框架来达到现实性标准性标准。我们用这种候选人的模化工具的模化工具。

0
下载
关闭预览

相关内容

机器学习组合优化
专知会员服务
108+阅读 · 2021年2月16日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
13+阅读 · 2021年1月31日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年10月23日
Arxiv
1+阅读 · 2021年10月21日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员