Recent advancement in combining trajectory optimization with function approximation (especially neural networks) shows promise in learning complex control policies for diverse tasks in robot systems. Despite their great flexibility, the large neural networks for parameterizing control policies impose significant challenges. The learned neural control policies are often overcomplex and non-smooth, which can easily cause unexpected or diverging robot motions. Therefore, they often yield poor generalization performance in practice. To address this issue, we propose adVErsarially Regularized pOlicy learNIng guided by trajeCtory optimizAtion (VERONICA) for learning smooth control policies. Specifically, our proposed approach controls the smoothness (local Lipschitz continuity) of the neural control policies by stabilizing the output control with respect to the worst-case perturbation to the input state. Our experiments on robot manipulation show that our proposed approach not only improves the sample efficiency of neural policy learning but also enhances the robustness of the policy against various types of disturbances, including sensor noise, environmental uncertainty, and model mismatch.


翻译:将轨迹优化与功能近似(特别是神经网络)相结合的最近进展显示,在为机器人系统中的不同任务学习复杂的控制政策方面很有希望。尽管它们有很大的灵活性,但大型神经网络对控制政策的参数化提出了巨大的挑战。所学神经控制政策往往过于复杂和非松动,很容易引起出乎意料的或不同的机器人动作。因此,它们在实践中往往产生不善的概括性表现。为了解决这一问题,我们提议在轨迹优化引导下,对常规的POlicy learning (VERONICA) 进行常规化的常规化控制,以学习平稳的控制政策。具体地说,我们提议的方法通过稳定神经控制政策的顺畅性(当地利普西茨连续性 ), 稳定对输入状态最坏的偏振动的输出控制。我们在机器人操纵方面的实验表明,我们提出的方法不仅提高了神经政策学习的样本效率,而且加强了政策对各种干扰的稳健性,包括传感器噪音、环境不确定性和模型不匹配。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
小样本学习(Few-shot Learning)综述
云栖社区
22+阅读 · 2019年4月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
10+阅读 · 2021年3月30日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
小样本学习(Few-shot Learning)综述
云栖社区
22+阅读 · 2019年4月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员