强化学习(RL)通过与复杂环境的交互,推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能,在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展,直到最近才被彻底理解,特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展,利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。