【导读】佛罗里达大学电子与计算机工程系教授Sean Meyn撰写的新书稿《强化学习与控制系统》,重点讲述了与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。
Sean Meyn,佛罗里达大学电子与计算机工程系教授兼Robert C. Pittman杰出学者主席,认知与控制实验室主任,佛罗里达可持续能源研究所所长。Sean于1982年获得加利福尼亚大学洛杉矶分校数学学士学位,于1987年获得麦吉尔大学电子工程博士学位。他的学术研究兴趣包括决策和控制的理论与应用,随机过程和优化。他在这些主题上的研究获得了许多奖项,并且是IEEE会士。
为了定义强化学习(RL),首先需要定义自动控制。例如,在你的日常生活中,可能包括你的汽车巡航控制,你的空调恒温器,冰箱和热水器,以及现代的衣物烘干机的决策规则。有收集数据的传感器,有收集数据以了解世界状态的计算机”(汽车以正确的速度行驶吗?毛巾还湿吗?),根据这些测量结果,由计算机驱动的算法会发出命令来调整需要调整的东西:油门、风扇速度、加热盘管电流,或者……更令人兴奋的例子包括太空火箭、人造器官和微型机器人来进行手术。RL的目标是真正自动的自动控制:没有任何物理学或生物学或医学知识,RL算法调整自己成为一个超级控制器: 最平稳的飞行进入太空,和最专业的微型外科医生! 这个梦想在大多数应用中肯定是遥不可及的,但最近的成功故事鼓舞了工业界、科学家和新一代学生。继2015年击败欧洲围棋冠军樊麾之后,DeepMind的AlphaGo再次刷新了世界纪录。不久之后的新闻是令人震惊的AlphaZero续集,它在“没有任何专家帮助的情况下”自学下国际象棋和围棋。这在现在看来已经不是什么新鲜事了,似乎每个月都会有新的突破。
今天的强化学习有两个同等重要的基础: 1. 最优控制:两个最著名的RL算法,TD-和q -学习,都是关于逼近最优控制的核心价值函数。2. 统计和信息理论。RL中的loration是本书的一大焦点,它强调了最优控制的几何性质,以及为什么创建可靠的学习算法并不困难。我们不会忽视第二个基础: 动机和成功的启发式将在不深入研究理论的情况下进行解释。读者将学到足够的知识,开始尝试自制的计算机代码,并拥有一个大的算法设计选择库。在完成这本书的一半之前,我希望学生能对为什么这些算法被期望是有用的以及为什么它们有时会失败有一个扎实的理解。
本书的重点是与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。