李察·萨顿和安德鲁·巴托以清晰简明的方式阐述了强化学习的关键思想和算法。他们的讨论范围从该领域的知识基础历史到最近的发展和应用。

强化学习是人工智能中最活跃的研究领域之一,是一种计算学习方法,其中一个代理试图在与复杂、不确定的环境交互时最大化其获得的总奖励。在《强化学习》这本书中,李察·萨顿和安德鲁·巴托以清晰简明的方式阐述了强化学习的关键思想和算法。他们的讨论范围从该领域的知识基础历史到最近的发展和应用。所需的数学背景仅是对基本概率概念的熟悉。

该书分为三部分。第一部分用马尔可夫决策过程来定义强化学习问题。第二部分提供基本解决方法:动态规划,蒙特卡洛方法,和时差学习。第三部分提供了一个关于解决方法的统一视角,并融入了人工神经网络,资格痕迹和规划;最后两章提供了案例研究,并考虑了强化学习的未来。

成为VIP会员查看完整内容
79

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2022新书】深度强化学习基础: Python的理论与实践
专知会员服务
136+阅读 · 2022年11月18日
【干货书】强化学习Python真实数据与实例应用,110页pdf
专知会员服务
112+阅读 · 2022年10月13日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
201+阅读 · 2020年2月7日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
120+阅读 · 2019年12月9日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
相关论文
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员