【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

2020 年 12 月 9 日 专知

强化学习(RL)为基于学习的控制提供了一种数学形式，允许通过优化用户指定的奖励函数来获得接近最优的行为。最近，由于在许多领域的出色应用，RL方法受到了相当多的关注，但事实上，RL需要一个基本的在线学习范式，这是其广泛采用的最大障碍之一。在线交互通常是不切实际的，因为数据收集是昂贵的(例如，在机器人或教育代理中)或危险的(例如，在自动驾驶或医疗保健中)。另一种方法是利用RL算法，在不需要在线交互的情况下有效地利用以前收集的经验。这被称为批处理RL、脱机RL或数据驱动RL。这样的算法对将数据集转化为强大的决策引擎有着巨大的希望，类似于数据集在视觉和NLP中被证明是成功的关键。在本教程中，我们的目标是为读者提供既可以利用离线RL作为工具，又可以在这个令人兴奋的领域进行研究的概念性工具。我们的目标是提供对离线RL的挑战的理解，特别是在现代深度RL方法的背景下，并描述一些潜在的解决方案。我们将以一种从业者易于理解的方式呈现经典和最新的方法，并讨论在这一领域开展研究的理论基础。我们将以讨论待解问题来结束。

https://sites.google.com/view/offlinerltutorial-neurips2020/home

References

[1] Rishabh Agarwal, Dale Schuurmans, and Mohammad Norouzi. An optimistic perspective on offline reinforcement learning. arXiv preprint arXiv:1907.04543, 2019.

[2] Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zo ̇ łna, Yusuf Aytar, David Budden, Mel Vecerik, et al. A framework for data-driven robotics. arXiv preprint arXiv:1909.12200, 2019.

[3] Xinyue Chen, Zijian Zhou, Zheng Wang, Che Wang, Yanqiu Wu, and Keith Ross. Bail: Best-action imitation learning for batch deep reinforcement learning. Advances in Neural Information Processing Systems, 33, 2020.

[4] Thomas Degris, Martha White, and Richard S Sutton. Off-policy actor-critic. arXiv preprint arXiv:1205.4839, 2012.

[5] Miroslav Dudík, Dumitru Erhan, John Langford, Lihong Li, et al. Doubly robust policy evaluation and optimization. Statistical Science, 29(4):485–511, 2014.

[6] Frederik Ebert, Chelsea Finn, Sudeep Dasari, Annie Xie, Alex Lee, and Sergey Levine. Visual foresight: Model-based deep reinforcement learning for vision-based robotic control. arXiv preprint arXiv:1812.00568, 2018.

[7] Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-rl with importance weighted

actor-learner architectures. arXiv preprint arXiv:1802.01561, 2018.

[8] Amir-massoud Farahmand and Csaba Szepesvári. Model selection in reinforcement learning. Machine learning, 85(3):299–332, 2011.

专知便捷查看