Learning the value function of a given policy from data samples is an important problem in Reinforcement Learning. TD($\lambda$) is a popular class of algorithms to solve this problem. However, the weights assigned to different $n$-step returns in TD($\lambda$), controlled by the parameter $\lambda$, decrease exponentially with increasing $n$. In this paper, we present a $\lambda$-schedule procedure that generalizes the TD($\lambda$) algorithm to the case when the parameter $\lambda$ could vary with time-step. This allows flexibility in weight assignment, i.e., the user can specify the weights assigned to different $n$-step returns by choosing a sequence $\{\lambda_t\}_{t \geq 1}$. Based on this procedure, we propose an on-policy algorithm - TD($\lambda$)-schedule, and two off-policy algorithms - GTD($\lambda$)-schedule and TDC($\lambda$)-schedule, respectively. We provide proofs of almost sure convergence for all three algorithms under a general Markov noise framework.


翻译:从数据样本中学习给定政策的价值函数是加强学习的一个重要问题。 TD( $\ lambda$) 是解决这一问题的一种流行的算法。 但是, 由参数 $\ lambda$ 控制, 由增加美元 以指数 美元 逐倍下降 。 在本文中, 当参数 $( $\ lambda$) 可能随时间步骤变化而变化时, 我们提出了一个 $( $\ lambda$) 的算法, 将 TD( $\ lambda$) 的算法 概括化为这个案例。 这允许在权重分配中具有灵活性, 也就是说, 用户可以通过选择 $ lambda_ t\ geq 1 $ 来指定给不同的 $( lambda$ ) 的分数 。 基于此程序, 我们提出了一个 政策算法 —— TD( $\ lambda$) 时间表 和 2 脱 运算法框架下 几乎三个 的一致标准。

0
下载
关闭预览

相关内容

专知会员服务
75+阅读 · 2021年9月27日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
时间序列算法ARIMA介绍
凡人机器学习
5+阅读 · 2017年6月2日
Arxiv
0+阅读 · 2022年1月26日
Arxiv
0+阅读 · 2022年1月22日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
时间序列算法ARIMA介绍
凡人机器学习
5+阅读 · 2017年6月2日
Top
微信扫码咨询专知VIP会员