This paper presents a method to reduce the computational complexity of including second-order dynamics sensitivity information into the Differential Dynamic Programming (DDP) trajectory optimization algorithm. A tensor-free approach to DDP is developed where all the necessary derivatives are computed with the same complexity as in the iterative Linear Quadratic Regulator~(iLQR). Compared to linearized models used in iLQR, DDP more accurately represents the dynamics locally, but it is not often used since the second-order derivatives of the dynamics are tensorial and expensive to compute. This work shows how to avoid the need for computing the derivative tensor by instead leveraging reverse-mode accumulation of derivative information to compute a key vector-tensor product directly. We benchmark this approach for trajectory optimization with multi-link manipulators and show that the benefits of DDP can often be included without sacrificing evaluation time, and can be done in fewer iterations than iLQR.


翻译:本文介绍了一种方法来降低将二阶动态敏感信息纳入差异动态编程轨迹优化算法的计算复杂性。 在以与迭接线性二次调控系统~(iLQQR)相同的复杂度计算所有必要的衍生物的情况下,开发了一种无压力的 DDP 方法。 与iLQR 中采用的线性模型相比, DDP 更准确地代表了当地动态, 但并不经常使用这种方法, 因为该动态的第二阶级衍生物是苛刻和昂贵的计算方法。 这项工作表明如何避免需要计算衍生物拉子, 而不是利用衍生物信息的逆向模式积累来直接计算一个关键矢量加速产物。 我们用多链接操纵器来设定这一轨迹优化方法的基准, 并表明DDP 的好处通常可以在不牺牲评价时间的情况下被包括在内, 并且可以在比 iLQR 更少的迭代法中完成。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
53+阅读 · 2020年9月7日
少标签数据学习,54页ppt
专知会员服务
199+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年4月28日
Arxiv
7+阅读 · 2020年6月29日
Arxiv
6+阅读 · 2018年10月3日
VIP会员
相关VIP内容
专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
53+阅读 · 2020年9月7日
少标签数据学习,54页ppt
专知会员服务
199+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员