【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt

2020 年 12 月 9 日 专知


强化学习(RL)为基于学习的控制提供了一种数学形式,允许通过优化用户指定的奖励函数来获得接近最优的行为。最近,由于在许多领域的出色应用,RL方法受到了相当多的关注,但事实上,RL需要一个基本的在线学习范式,这是其广泛采用的最大障碍之一。在线交互通常是不切实际的,因为数据收集是昂贵的(例如,在机器人或教育代理中)或危险的(例如,在自动驾驶或医疗保健中)。另一种方法是利用RL算法,在不需要在线交互的情况下有效地利用以前收集的经验。这被称为批处理RL、脱机RL或数据驱动RL。这样的算法对将数据集转化为强大的决策引擎有着巨大的希望,类似于数据集在视觉和NLP中被证明是成功的关键。在本教程中,我们的目标是为读者提供既可以利用离线RL作为工具,又可以在这个令人兴奋的领域进行研究的概念性工具。我们的目标是提供对离线RL的挑战的理解,特别是在现代深度RL方法的背景下,并描述一些潜在的解决方案。我们将以一种从业者易于理解的方式呈现经典和最新的方法,并讨论在这一领域开展研究的理论基础。我们将以讨论待解问题来结束。


https://sites.google.com/view/offlinerltutorial-neurips2020/home





References


[1] Rishabh Agarwal, Dale Schuurmans, and Mohammad Norouzi. An optimistic perspective on offline reinforcement learning. arXiv preprint arXiv:1907.04543, 2019.

[2] Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zo ̇ łna, Yusuf Aytar, David Budden, Mel Vecerik, et al. A framework for data-driven robotics. arXiv preprint arXiv:1909.12200, 2019.

[3] Xinyue Chen, Zijian Zhou, Zheng Wang, Che Wang, Yanqiu Wu, and Keith Ross. Bail: Best-action imitation learning for batch deep reinforcement learning. Advances in Neural Information Processing Systems, 33, 2020.

[4] Thomas Degris, Martha White, and Richard S Sutton. Off-policy actor-critic. arXiv preprint arXiv:1205.4839, 2012.

[5] Miroslav Dudík, Dumitru Erhan, John Langford, Lihong Li, et al. Doubly robust policy evaluation and optimization. Statistical Science, 29(4):485–511, 2014.

[6] Frederik Ebert, Chelsea Finn, Sudeep Dasari, Annie Xie, Alex Lee, and Sergey Levine. Visual foresight: Model-based deep reinforcement learning for vision-based robotic control. arXiv preprint arXiv:1812.00568, 2018.

[7] Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-rl with importance weighted

actor-learner architectures. arXiv preprint arXiv:1802.01561, 2018.

[8] Amir-massoud Farahmand and Csaba Szepesvári. Model selection in reinforcement learning. Machine learning, 85(3):299–332, 2011.


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“ORL” 就可以获取【NeurIPS 2020 Tutorial 】离线强化学习:从算法到挑战,80页ppt》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
15

相关内容

【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
47+阅读 · 2020年10月26日
【PKDD2020教程】可解释人工智能XAI:算法到应用,200页ppt
专知会员服务
101+阅读 · 2020年10月13日
专知会员服务
109+阅读 · 2020年8月28日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
113+阅读 · 2020年8月15日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
128+阅读 · 2020年7月20日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
90+阅读 · 2020年7月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
NeurIPS2019机器学习顶会接受论文列表!
GAN生成式对抗网络
17+阅读 · 2019年9月6日
ICML2019《元学习》教程与必读论文列表
专知
42+阅读 · 2019年6月16日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Arxiv
7+阅读 · 2020年10月9日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
136+阅读 · 2018年10月8日
VIP会员
相关VIP内容
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
47+阅读 · 2020年10月26日
【PKDD2020教程】可解释人工智能XAI:算法到应用,200页ppt
专知会员服务
101+阅读 · 2020年10月13日
专知会员服务
109+阅读 · 2020年8月28日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
113+阅读 · 2020年8月15日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
128+阅读 · 2020年7月20日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
90+阅读 · 2020年7月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
相关资讯
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
NeurIPS2019机器学习顶会接受论文列表!
GAN生成式对抗网络
17+阅读 · 2019年9月6日
ICML2019《元学习》教程与必读论文列表
专知
42+阅读 · 2019年6月16日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Top
微信扫码咨询专知VIP会员