本课程关注控制理论和强化学习的理论介绍,侧重于连续状态空间以及物理世界和机器人技术的应用。我们强调计算效率的算法和可证明的界。特别关注RL中非随机控制和遗憾最小化的新方法。我们将与该领域的经典方法论进行比较和对比。
本课程的练习和项目将需要用python编写代码。
这门课程对所有学生开放,但要求有很强的数学背景。
https://sites.google.com/view/cos59x-cct/home
深度学习的先驱、图灵奖获得者Yann Lecun教授有一种非常简洁明了地抓住问题症结的气质。2020年2月左右,他在巴巴多斯研讨会上说,
“控制=梯度强化学习”。
强化学习和控制理论的关键区别在于它们所操作的空间。强化学习的范围通常位于离散状态空间(如围棋、国际象棋),而控制理论通常处理涉及物理和连续空间(如机器人)的问题。物理学和结构环境的知识使我们能够利用差分信息。
后者允许我们使用强大的数学优化和凸松弛技术来设计高效的算法。这是自适应非随机控制理论的主题,也是本课程的主题。