现代人工智能(AI)系统通常需要在一个未知的、不确定的、可能敌对的环境中,通过积极地与环境交互来收集相关数据,从而做出连续的决策。强化学习(RL)是一个通用框架,可以捕获交互式学习设置,并已被用于设计智能代理,以实现超人水平的表现,在具有挑战性的任务,如围棋,电脑游戏,机器人操作。
这门研究生水平的课程着重于强化学习的理论和算法基础。本课程的四个主题为: (1)可证明有效的探索; (2)策略优化(特别是策略梯度); (3)控制; (4)模仿学习。
通过本课程,学生将能够理解经典的和最新的可证明正确的RL算法及其分析。学生将能够对与RL相关的课题进行研究。