《强化学习与控制》是一门由清华大学智能驾驶课题组李升波教授亲自讲授的强化学习课程,该课程总共包含11讲,以理论基础与算法设计融合的方式介绍了RL的框架体系,从优化角度梳理了直接法与间接法,带模型与免模型等类别,并对典型算法原理和特性进行了分析和总结,是一门兼顾基础入门、进阶提升的强化学习课程。
一、关于课题组
智能驾驶课题组(iDLab, Intelligent Driving Lab) 面向下一代机器学习和自动控制的交叉理论探索,聚焦智能网联汽车和驾驶辅助系统的核心技术研发,进一步提升汽车的智能性、安全性和节能性。 http://www.idlab-tsinghua.com/thulab/labweb/index.html
二、关于主讲老师:李升波教授
李升波,清华大学长聘教授,博导,车辆学院副院长。留学于斯坦福大学,密歇根大学和加州伯克利大学。从事自动驾驶、智能汽车、强化学习、最优控制等研究。发表论文110余篇,引用>8500次,H因子45。入选IEEE高关注度及封面论文3篇,ESI高引10篇(学科前1%),学术会议最佳论文奖8次。获中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。入选国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、中国汽车行业优秀青年科技人才奖、首届北京市基金委杰青、清华大学教师学术新人奖等。担任AI国际评测MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的全球理事会委员、IEEE Trans on ITS副主编等。
三、关于《强化学习与控制》课程
目前,人工智能的快速崛起正重塑人类社会的各个领域,有望引导工业文明进入新一轮革命浪潮。以道路交通为例,汽车的智能化变革促使整个行业发生了翻天覆地的变化,包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现,它们在提升地面车辆行驶性能的同时,也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。
以模仿人类大脑学习机制为原理的强化学习(RL,Reinforcement Learning)正迅速进入人们的视野,它为大规模复杂系统的学习及动态系统的高实时在线控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能:它利用深度强化学习算法实现围棋智能的自我进化,自我超越,打败人类最好的专业棋手。尽管强化学习具有优异的潜在优势,但是该方法的工程应用尚属于起步阶段。
《强化学习与控制》这一门课程包括11节。
第1讲介绍RL概况,包括发展历史、知名学者、典型应用以及主要挑战等。
第2讲介绍RL的基础知识,包括定义概念、自洽条件、最优性原理问题架构等。
第3讲介绍免模型学习的蒙特卡洛法,包括Monte Carlo估计,On-policy/off-policy,重要性采样等。
第4讲介绍免模型学习的时序差分法,包括它衍生的Sarsa,Q-learning,Expected Sarsa等算法。
第5讲介绍带模型学习的动态规划法,包括策略迭代、值迭代、收敛性原理等。
第6讲介绍间接型RL的函数近似方法,包括常用近似函数,值函数近似,策略函数近似以及所衍生的Actor-critic架构等。
第7讲介绍直接型RL的策略梯度法,包括各类Policy Gradient, 以及如何从优化的观点看待RL等。
第8讲介绍深度强化学习,即以神经网络为载体的RL,包括深度化典型挑战、经验性处理技巧等。
第9讲介绍带模型的强化学习,即近似动态规划,包括离散时间系统的ADP,ADP与MPC的关联分析等。
第10讲介绍有限时域的近似动态规划,同时介绍了状态约束的处理手段以及它与可行性之间的关系
第11讲介绍RL的各类拾遗,包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。