TD($λ$) with function approximation has proved empirically successful for some complex reinforcement learning problems. For linear approximation, TD($λ$) has been shown to minimise the squared error between the approximate value of each state and the true value. However, as far as policy is concerned, it is error in the relative ordering of states that is critical, rather than error in the state values. We illustrate this point, both in simple two-state and three-state systems in which TD($λ$)--starting from an optimal policy--converges to a sub-optimal policy, and also in backgammon. We then present a modified form of TD($λ$), called STD($λ$), in which function approximators are trained with respect to relative state values on binary decision problems. A theoretical analysis, including a proof of monotonic policy improvement for STD($λ$) in the context of the two-state system, is presented, along with a comparison with Bertsekas' differential training method [1]. This is followed by successful demonstrations of STD($λ$) on the two-state system and a variation on the well known acrobot problem.


翻译:TD($λ$)结合函数逼近方法已在一些复杂强化学习问题上取得了实证成功。对于线性逼近,TD($λ$)已被证明能够最小化各状态近似值与真实值之间的平方误差。然而,就策略而言,关键的是状态间相对排序的误差,而非状态值的绝对误差。我们通过简单双状态与三状态系统(其中TD($λ$)从最优策略出发却收敛至次优策略)以及西洋双陆棋案例阐明了这一观点。随后我们提出TD($λ$)的改进形式STD($λ$),该算法在二元决策问题上针对状态相对值训练函数逼近器。我们给出了理论分析(包括在双状态系统中STD($λ$)策略单调改进性的证明),并与Bertsekas的差分训练方法[1]进行了比较。最后通过双状态系统及经典acrobot问题的变体实验,成功验证了STD($λ$)的有效性。

0
下载
关闭预览

相关内容

【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员