The problem of continuous optimal control (over finite time horizon) is to minimize a given cost function over the sequence of continuous control variables. The problem of continuous inverse optimal control is to learn the unknown cost function from expert demonstrations. In this article, we study this fundamental problem in the framework of energy-based model, where the observed expert trajectories are assumed to be random samples from a probability density function defined as the exponential of the negative cost function up to a normalizing constant. The parameters of the cost function are learned by maximum likelihood via an "analysis by synthesis" scheme, which iterates the following two steps: (1) Synthesis step: sample the synthesized trajectories from the current probability density using the Langevin dynamics via back-propagation through time. (2) Analysis step: update the model parameters based on the statistical difference between the synthesized trajectories and the observed trajectories. Given the fact that an efficient optimization algorithm is usually available for an optimal control problem, we also consider a convenient approximation of the above learning method, where we replace the sampling in the synthesis step by optimization. To make the sampling or optimization more efficient, we propose to train the energy-based model simultaneously with a top-down trajectory generator via cooperative learning, where the trajectory generator is used to fast initialize the sampling step or optimization step of the energy-based model. We demonstrate the proposed methods on autonomous driving tasks, and show that it can learn suitable cost functions for optimal control.


翻译:连续最佳控制( 超定时间范围) 问题在于将连续控制变量序列的成本功能降到最低程度。 连续反向最佳控制的问题是从专家演示中学习未知的成本功能。 在本条中,我们在以能源为基础的模型框架内研究这个根本问题, 观察到的专家轨迹被假定是概率密度函数的随机样本, 概率密度函数的定义是负成本函数指数, 直至正常化常数。 成本函数参数是通过“ 综合分析” 方案最有可能地学习的, 循环以下两个步骤:(1) 综合步骤: 通过反向分析, 将合成轨迹从当前概率密度中抽取出, 使用兰格文动态, 利用实时反向分析模型。 (2) 分析步骤: 根据综合轨迹与观察到的轨迹之间的统计差异, 更新模型参数, 将负负成本计算法通常用于最佳控制问题。 我们还考虑对以上学习方法进行最方便的近似, 将综合步骤中的取样改为最优化。 为了使取样工作更合适, 利用兰格文思文的轨迹, 进行取样或优化后, 我们提议, 以最高效地进行最佳的机率,, 学习最高级的机 学习 机 机 以 学习 机 机 机 机 机 以 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 制 制 制 机 机

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
8+阅读 · 2018年10月31日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年3月17日
Arxiv
0+阅读 · 2021年3月17日
Arxiv
0+阅读 · 2021年3月16日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
相关资讯
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
8+阅读 · 2018年10月31日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员