本文仅供交流,如有侵权,请联系删除。
介绍
《Reinforcement Learning:An Introduction》,被认为是强化学习圣经,由Tabular Solution Methods、Approximate Solution Methods和Looking Deeper三个部分组成。
本书官网:
http://www.incompleteideas.net/book/the-book.html
对应 Python 代码实现(GitHub):
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
Richard S. Sutton,DeepMind Alberta杰出科学家,Alberta大学计算机科学系的教授,强化学习和人工智能实验室首席研究员,CIFAR首席科学顾问,一直被认为是现代强化学习的奠基人之一,主要显著的贡献包括,temporal difference learning, policy gradient methods, the Dyna architecture。
Andrew Barto ,Massachusetts大学Amherst分校计算机科学与信息学院荣誉教授、自主学习实验室联合负责人,曾获2004年IEEE神经网络协会先锋奖、IJCAI-17优秀科研奖。现为美国科学促进会会员,IEEE高级会员和研究员,AAAI和美国神经科学学会会员,Neural Computation的副主编。