强化学习(RL)为基于学习的控制提供了一种数学形式,允许通过优化用户指定的奖励函数来获得接近最优的行为。最近,由于在许多领域的出色应用,RL方法受到了相当多的关注,但事实上,RL需要一个基本的在线学习范式,这是其广泛采用的最大障碍之一。在线交互通常是不切实际的,因为数据收集是昂贵的(例如,在机器人或教育代理中)或危险的(例如,在自动驾驶或医疗保健中)。另一种方法是利用RL算法,在不需要在线交互的情况下有效地利用以前收集的经验。这被称为批处理RL、脱机RL或数据驱动RL。这样的算法对将数据集转化为强大的决策引擎有着巨大的希望,类似于数据集在视觉和NLP中被证明是成功的关键。在本教程中,我们的目标是为读者提供既可以利用离线RL作为工具,又可以在这个令人兴奋的领域进行研究的概念性工具。我们的目标是提供对离线RL的挑战的理解,特别是在现代深度RL方法的背景下,并描述一些潜在的解决方案。我们将以一种从业者易于理解的方式呈现经典和最新的方法,并讨论在这一领域开展研究的理论基础。我们将以讨论待解问题来结束。

https://sites.google.com/view/offlinerltutorial-neurips2020/home

成为VIP会员查看完整内容
58

相关内容

「元学习」最新AAAI2021-Tutorial,附视频与240页ppt
专知会员服务
113+阅读 · 2021年2月7日
【NeurIPS 2020】近似推断进展,272页ppt
专知会员服务
32+阅读 · 2020年12月11日
专知会员服务
106+阅读 · 2020年8月28日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
108+阅读 · 2020年8月15日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
88+阅读 · 2020年7月14日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
70+阅读 · 2020年3月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
ICML2019《元学习》教程与必读论文列表
专知
41+阅读 · 2019年6月16日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
Arxiv
21+阅读 · 2018年8月30日
Large-Scale Study of Curiosity-Driven Learning
Arxiv
8+阅读 · 2018年8月13日
VIP会员
相关VIP内容
「元学习」最新AAAI2021-Tutorial,附视频与240页ppt
专知会员服务
113+阅读 · 2021年2月7日
【NeurIPS 2020】近似推断进展,272页ppt
专知会员服务
32+阅读 · 2020年12月11日
专知会员服务
106+阅读 · 2020年8月28日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
108+阅读 · 2020年8月15日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
88+阅读 · 2020年7月14日
《强化学习》简介小册,24页pdf
专知会员服务
261+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
70+阅读 · 2020年3月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
微信扫码咨询专知VIP会员