The empirical success of derivative-free methods in reinforcement learning for planning through contact seems at odds with the perceived fragility of classical gradient-based optimization methods in these domains. What is causing this gap, and how might we use the answer to improve gradient-based methods? We believe a stochastic formulation of dynamics is one crucial ingredient. We use tools from randomized smoothing to analyze sampling-based approximations of the gradient, and formalize such approximations through the gradient bundle. We show that using the gradient bundle in lieu of the gradient mitigates fast-changing gradients of non-smooth contact dynamics modeled by the implicit time-stepping, or the penalty method. Finally, we apply the gradient bundle to optimal control using iLQR, introducing a novel algorithm which improves convergence over using exact gradients. Combining our algorithm with a convex implicit time-stepping formulation of contact, we show that we can tractably tackle planning-through-contact problems in manipulation.


翻译:无衍生物方法在通过接触加强规划学习方面的经验成功似乎与这些领域经典梯度优化方法的脆弱感不相符。 是什么造成这一差距, 以及我们如何用答案改进梯度法? 我们相信动态的随机分析配方是一个关键要素。 我们使用随机平滑工具分析梯度的基模近似,并通过梯度捆绑正式确定这种近似值。 我们显示, 使用梯度捆绑取代梯度可以减轻以隐含时间间隔或惩罚方法为模型的非移动接触动态快速变化的梯度。 最后, 我们运用梯度捆绑优化控制, 使用 iLQR, 引入新的算法, 改善精确梯度的趋同 。 我们的算法与等式隐含时间间隔配方相结合, 我们显示, 我们能灵活地解决操纵中的规划- 通过接触问题 。

0
下载
关闭预览

相关内容

【斯坦福Jiaxuan You】图学习在金融网络中的应用,24页ppt
专知会员服务
43+阅读 · 2021年9月19日
如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
64+阅读 · 2021年2月12日
【MIT干货书】机器学习算法视角,126页pdf
专知会员服务
77+阅读 · 2021年1月25日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Arxiv
0+阅读 · 2021年11月2日
Arxiv
6+阅读 · 2019年12月30日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
26+阅读 · 2018年8月19日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Top
微信扫码咨询专知VIP会员