【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

主题： Exploration-Exploitation in Reinforcement Learning

摘要： 强化学习（RL）研究的是当环境（即动力和反馈）最初未知，但可以通过直接交互学习时的顺序决策问题。学习问题的一个关键步骤是恰当地平衡对环境的探索，以便收集有用的信息，并利用所学的政策来收集尽可能多的回报。最近的理论结果证明，基于乐观主义或后验抽样的方法（如UCRL、PSRL等）成功地解决了勘探开发难题，并且可能需要比简单（但非常流行）的技术（如epsilon贪心）小指数的样本来收敛到接近最优的策略。乐观主义和后验抽样原则直接受到多臂bandit文献的启发，RL提出了具体的挑战（例如，“局部”不确定性如何通过Markov动力学传播），这需要更复杂的理论分析。本教程的重点是提供勘探开发困境的正式定义，讨论其挑战，并回顾不同优化标准（特别是有限时间和平均回报问题）的主要算法原则及其理论保证。在整个教程中，我们将讨论开放的问题和未来可能的研究方向。

邀请嘉宾： Ronan Fruit，Inria SequeL团队的博士生。他目前是蒙特利尔Facebook人工智能研究（FAIR）的研究实习生。他的研究集中在理论上理解强化学习中的探索性开发困境，以及设计具有可证明的良好后悔保证的算法。

Alessandro Lazaric，自2017年以来一直是Facebook AI Research（FAIR）实验室的研究科学家，他之前是SequeL团队Inria的研究员。他的主要研究主题是强化学习，在RL的理论和算法方面都做出了巨大贡献。在过去的十年中，他研究了多臂土匪和强化学习框架中的勘探与开发困境，特别是在遗憾最小化，最佳武器识别，纯粹探索和分层RL等问题上。

Matteo Pirotta，巴黎Facebook人工智能研究（FAIR）实验室的研究科学家。之前，他是SequeL团队的Inria博士后。2016年，他在米兰理工大学（意大利）获得计算机科学博士学位。他在强化学习方面的博士论文获得了Dimitris N.Chorafas基金会奖和EurAI杰出论文奖。他的主要研究兴趣是强化学习。近几年来，他主要关注的是RL的勘探开发困境。

成为VIP会员查看完整内容

相关内容

Alessandro Lazaric

关注 0

自2017年以来一直是Facebook AI Research（FAIR）实验室的研究科学家，他之前是SequeL团队Inria的研究员。他的主要研究主题是强化学习，在RL的理论和算法方面都做出了巨大贡献。在过去的十年中，他研究了多臂土匪和强化学习框架中的勘探与开发困境，特别是在遗憾最小化，最佳武器识别，纯粹探索和分层RL等问题上。

元学习(meta learning) 最新进展综述论文

专知会员服务

281+阅读 · 2020年5月8日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日