主题: Exploration-Exploitation in Reinforcement Learning
摘要: 强化学习(RL)研究的是当环境(即动力和反馈)最初未知,但可以通过直接交互学习时的顺序决策问题。学习问题的一个关键步骤是恰当地平衡对环境的探索,以便收集有用的信息,并利用所学的政策来收集尽可能多的回报。最近的理论结果证明,基于乐观主义或后验抽样的方法(如UCRL、PSRL等)成功地解决了勘探开发难题,并且可能需要比简单(但非常流行)的技术(如epsilon贪心)小指数的样本来收敛到接近最优的策略。乐观主义和后验抽样原则直接受到多臂bandit文献的启发,RL提出了具体的挑战(例如,“局部”不确定性如何通过Markov动力学传播),这需要更复杂的理论分析。本教程的重点是提供勘探开发困境的正式定义,讨论其挑战,并回顾不同优化标准(特别是有限时间和平均回报问题)的主要算法原则及其理论保证。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。
邀请嘉宾: Ronan Fruit,Inria SequeL团队的博士生。他目前是蒙特利尔Facebook人工智能研究(FAIR)的研究实习生。他的研究集中在理论上理解强化学习中的探索性开发困境,以及设计具有可证明的良好后悔保证的算法。
Alessandro Lazaric,自2017年以来一直是Facebook AI Research(FAIR)实验室的研究科学家,他之前是SequeL团队Inria的研究员。他的主要研究主题是强化学习,在RL的理论和算法方面都做出了巨大贡献。在过去的十年中,他研究了多臂土匪和强化学习框架中的勘探与开发困境,特别是在遗憾最小化,最佳武器识别,纯粹探索和分层RL等问题上。
Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)实验室的研究科学家。之前,他是SequeL团队的Inria博士后。2016年,他在米兰理工大学(意大利)获得计算机科学博士学位。他在强化学习方面的博士论文获得了Dimitris N.Chorafas基金会奖和EurAI杰出论文奖。他的主要研究兴趣是强化学习。近几年来,他主要关注的是RL的勘探开发困境。