The paper proposes the use of structured neural networks for reinforcement learning based nonlinear adaptive control. The focus is on partially observable systems, with separate neural networks for the state and feedforward observer and the state feedback and feedforward controller. The observer dynamics are modelled by recurrent neural networks while a standard network is used for the controller. As discussed in the paper, this leads to a separation of the observer dynamics to the recurrent neural network part, and the state feedback to the feedback and feedforward network. The structured approach reduces the computational complexity and gives the reinforcement learning based controller an {\em understandable} structure as compared to when one single neural network is used. As shown by simulation the proposed structure has the additional and main advantage that the training becomes significantly faster. Two ways to include feedforward structure are presented, one related to state feedback control and one related to classical feedforward control. The latter method introduces further structure with a separate recurrent neural network that processes only the measured disturbance. When evaluated with simulation on a nonlinear cascaded double tank process, the method with most structure performs the best, with excellent feedforward disturbance rejection gains.


翻译:该文章提出了在非线性自适应控制的强化学习中使用结构化神经网络的方法。文章侧重于部分可观测的系统,使用单独的神经网络来处理状态和前馈观察者,以及状态反馈和前馈控制器。观察者动力学由递归神经网络建模,控制器则使用标准网络。如本文所述,这导致观察者动态被分离到递归神经网络部分和状态反馈到反馈和前馈网络部分。采用结构化方法降低了计算复杂度,并且对于强化学习的控制器,具有“可理解”的结构性​​,而不是使用单一的神经网络。仿真结果表明,所提出的结构可以使训练速度显著加快。文章介绍了两种包含前馈结构的方法,一种与状态反馈控制相关,一种与经典前馈控制相关。后一种方法引入更多结构,使用单独的递归神经网络仅处理测量干扰。在非线性串联双罐过程的仿真评估中,最具结构性的方法表现最佳,前馈干扰拒绝性能优秀。

0
下载
关闭预览

相关内容

【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
56+阅读 · 2023年2月18日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
226+阅读 · 2022年2月3日
专知会员服务
39+阅读 · 2021年6月29日
【微软】人工智能系统课程
专知会员服务
89+阅读 · 2020年12月31日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【2022新书】强化学习工业应用
专知
17+阅读 · 2022年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
相关VIP内容
相关资讯
【2022新书】强化学习工业应用
专知
17+阅读 · 2022年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员