The problem of continuous optimal control (over finite time horizon) is to minimize a given cost function over the sequence of continuous control variables. The problem of continuous inverse optimal control is to learn the unknown cost function from expert demonstrations. In this article, we study this fundamental problem in the framework of energy-based model, where the observed expert trajectories are assumed to be random samples from a probability density function defined as the exponential of the negative cost function up to a normalizing constant. The parameters of the cost function are learned by maximum likelihood via an "analysis by synthesis" scheme, which iterates the following two steps: (1) Synthesis step: sample the synthesized trajectories from the current probability density using the Langevin dynamics via back-propagation through time. (2) Analysis step: update the model parameters based on the statistical difference between the synthesized trajectories and the observed trajectories. Given the fact that an efficient optimization algorithm is usually available for an optimal control problem, we also consider a convenient approximation of the above learning method, where we replace the sampling in the synthesis step by optimization. To make the sampling or optimization more efficient, we propose to train the energy-based model simultaneously with a top-down trajectory generator via cooperative learning, where the trajectory generator is used to fast initialize the sampling step or optimization step of the energy-based model. We demonstrate the proposed methods on autonomous driving tasks, and show that it can learn suitable cost functions for optimal control.
翻译:连续最佳控制( 超定时间范围) 问题在于将连续控制变量序列的成本功能降到最低程度。 连续反向最佳控制的问题是从专家演示中学习未知的成本功能。 在本条中,我们在以能源为基础的模型框架内研究这个根本问题, 观察到的专家轨迹被假定是概率密度函数的随机样本, 概率密度函数的定义是负成本函数指数, 直至正常化常数。 成本函数参数是通过“ 综合分析” 方案最有可能地学习的, 循环以下两个步骤:(1) 综合步骤: 通过反向分析, 将合成轨迹从当前概率密度中抽取出, 使用兰格文动态, 利用实时反向分析模型。 (2) 分析步骤: 根据综合轨迹与观察到的轨迹之间的统计差异, 更新模型参数, 将负负成本计算法通常用于最佳控制问题。 我们还考虑对以上学习方法进行最方便的近似, 将综合步骤中的取样改为最优化。 为了使取样工作更合适, 利用兰格文思文的轨迹, 进行取样或优化后, 我们提议, 以最高效地进行最佳的机率,, 学习最高级的机 学习 机 机 以 学习 机 机 机 机 机 以 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 机 制 制 制 机 机