Optimal control of general nonlinear systems is a central challenge in automation. Data-driven approaches to control, enabled by powerful function approximators, have recently had great success in tackling challenging robotic applications. However, such methods often obscure the structure of dynamics and control behind black-box over-parameterized representations, thus limiting our ability to understand the closed-loop behavior. This paper adopts a hybrid-system view of nonlinear modeling and control that lends an explicit hierarchical structure to the problem and breaks down complex dynamics into simpler localized units. Therefore, we consider a sequence modeling paradigm that captures the temporal structure of the data and derive an expecation-maximization (EM) algorithm that automatically decomposes nonlinear dynamics into stochastic piecewise affine dynamical systems with nonlinear boundaries. Furthermore, we show that these time-series models naturally admit a closed-loop extension that we use to extract locally linear or polynomial feedback controllers from nonlinear experts via imitation learning. Finally, we introduce a novel hybrid realtive entropy policy search (Hb-REPS) technique that incorporates the hierarchical nature of hybrid systems and optimizes a set of time-invariant local feedback controllers derived from a locally polynomial approximation of a global value function.


翻译:对普通非线性系统的优化控制是自动化的一个中心挑战。 数据驱动的控制方法在强大的功能近似器的帮助下,最近在应对具有挑战性的机器人应用方面取得了巨大的成功。 但是,这种方法往往模糊黑盒超分度表示器背后的动态和控制结构,从而限制了我们理解闭环行为的能力。 本文采用了非线性模型和控制的混合系统视图,这为问题提供了明确的上层结构,并将复杂的动态转换成更简单的本地化单位。 因此,我们考虑了一种以数据的时间结构为依托的序列模型模式,并得出了一种显微(EM)算法,该算法将非线性动态自动分解成具有非线性细线性、具有非线性边际界限的细线性结构,从而限制了我们理解闭线性模型和控制的能力。 此外,我们展示了这些时间序列模型自然会接受一种闭环扩展,我们用来通过模仿学习从非线性专家那里提取线性或多线性反馈控制器。 最后,我们引入了一种新型的混合真实性政策搜索(Hb-REP- Meximalimalimalimal pressal mess 一种从当地最佳混合系统中提取了一种由地方级级级级级数级数级数级数级的系统。

0
下载
关闭预览

相关内容

神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
专知会员服务
115+阅读 · 2019年12月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
11+阅读 · 2021年12月8日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年5月28日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
11+阅读 · 2021年12月8日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年5月28日
Top
微信扫码咨询专知VIP会员