【导读】强化学习是人工智能中最活跃的研究领域之一,是一种计算学习方法,通过这种方法,Agent试图在与复杂,不确定的环境进行交互时最大限度地获得奖励。在强化学习中,理查德萨顿和安德鲁巴托提供了关于强化学习的关键思想和算法的清晰而简单的说明。他们的讨论范围从该领域的知识基础的历史到最新的发展和应用。唯一必要的数学背景是熟悉概率的基本概念。
本书分为三个部分。第一部分根据马尔可夫决策过程定义强化学习问题。第二部分提供了基本的解决方案:动态规划,蒙特卡罗方法和时差学习。第三部分提出了解决方法的统一视图,并结合了人工神经网络,资格跟踪和规划;最后两章介绍了案例研究,并考虑了强化学习的未来。
请关注专知公众号(扫一扫专知二维码,或者点击上方蓝色专知),
后台回复“MITRL” 就可以获取548页PDF下载链接~
第二版的网站:
http://incompleteideas.net/book/the-book-2nd.html
python实现的代码:
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
课程资料:
http://incompleteideas.net/609%20dropbox/
附书籍目录
-END-
专 · 知
人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~
请关注专知公众号,获取人工智能的专业知识!
点击“阅读原文”,使用专知