强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。
本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。