我们研究了智能体在面临一系列强化学习任务时的知识转移问题。在马尔可夫决策过程之间引入了一种新的度量方法,证明了封闭式多目标决策具有封闭式最优值函数。形式上,最优值函数是关于任务空间的Lipschitz连续函数。根据这些理论结果,我们提出了一种终身RL的值转移方法,并利用该方法建立了一种收敛速度较好的PAC-MDP算法。我们在终身RL实验中说明了该方法的好处。

成为VIP会员查看完整内容
28

相关内容

专知会员服务
109+阅读 · 2020年12月17日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
专知会员服务
16+阅读 · 2020年12月4日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
20+阅读 · 2020年11月15日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
24+阅读 · 2020年9月18日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
108+阅读 · 2020年8月15日
解耦强化学习的值函数学习
CreateAMind
5+阅读 · 2019年9月5日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
CCAI2018演讲实录 | 刘兵:终身学习、连续学习与元学习
人工智能前沿讲习班
13+阅读 · 2018年10月8日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
8+阅读 · 2019年2月15日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
相关VIP内容
专知会员服务
109+阅读 · 2020年12月17日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
专知会员服务
16+阅读 · 2020年12月4日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
20+阅读 · 2020年11月15日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
24+阅读 · 2020年9月18日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
108+阅读 · 2020年8月15日
相关资讯
微信扫码咨询专知VIP会员