Solving the Hamilton-Jacobi-Bellman equation is important in many domains including control, robotics and economics. Especially for continuous control, solving this differential equation and its extension the Hamilton-Jacobi-Isaacs equation, is important as it yields the optimal policy that achieves the maximum reward on a give task. In the case of the Hamilton-Jacobi-Isaacs equation, which includes an adversary controlling the environment and minimizing the reward, the obtained policy is also robust to perturbations of the dynamics. In this paper we propose continuous fitted value iteration (cFVI) and robust fitted value iteration (rFVI). These algorithms leverage the non-linear control-affine dynamics and separable state and action reward of many continuous control problems to derive the optimal policy and optimal adversary in closed form. This analytic expression simplifies the differential equations and enables us to solve for the optimal value function using value iteration for continuous actions and states as well as the adversarial case. Notably, the resulting algorithms do not require discretization of states or actions. We apply the resulting algorithms to the Furuta pendulum and cartpole. We show that both algorithms obtain the optimal policy. The robustness Sim2Real experiments on the physical systems show that the policies successfully achieve the task in the real-world. When changing the masses of the pendulum, we observe that robust value iteration is more robust compared to deep reinforcement learning algorithm and the non-robust version of the algorithm. Videos of the experiments are shown at https://sites.google.com/view/rfvi


翻译:解决汉密尔顿- Jacobi- Bellman 等式在许多领域都很重要, 包括控制、 机器人和经济学。 特别是对于持续控制, 解决这一差异方程式及其扩展 汉密尔顿- Jacobi- Isaaacs 等式非常重要, 因为它能产生最佳政策, 从而在给定任务上获得最大奖赏。 在汉密尔顿- Jacobi- Isaacs 等式中, 包括一个对手控制环境, 并尽量减少奖赏, 所获得的政策对动态的破坏也很有力。 在本文中, 我们提出连续调整值的迭代值(cFVI) 和坚固的调值迭代值(rFVI) 。 这些算法将非线性控制- Jacobi- Isaaaacs 等式的方程式及其扩展的扩展值( rFVI) 等同式等同式方程式运用于非线性控制- Jamilton- Jacolm- Idal 等同式控制问题的最佳政策奖励。 我们将由此生成的轨算算算法 显示的是, 和Simlalal- dalvialalalal- dalview dalationalationalationalationalationalations, laxalations, laxals, laxaldaldals laxxaldaldaldaldalds 显示的是, 和Slodaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldalds, 。 我们显示的是, 。 我们显示的是, 。

0
下载
关闭预览

相关内容

专知会员服务
49+阅读 · 2021年6月30日
专知会员服务
14+阅读 · 2021年5月21日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年11月29日
Arxiv
0+阅读 · 2021年11月28日
Arxiv
4+阅读 · 2021年7月1日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员