入门强化学习,初学者值得一看!

2021 年 12 月 19 日 学术头条

人工智能的发展经历了三次浪潮,从空中楼阁到象牙之塔,现如今走进了万间广厦。

近十年,以深度学习为发端的第三次人工智能浪潮带来很多变化,有别于前两次浪潮的大浪淘沙,这次人工智能浪潮正呈席卷之势,引领新一代科学技术的发展,改变着每个领域、每个行业,也普惠着生活在这个时代的每一个人。

人工智能技术已经融入越来越多的行业,应用在越来越广的场景之中。人工智能开发的难易程度,也从十年前的高不可攀到如今走进千家万户,未来可期成为多数工程师的必备技能。

在这背后自然离不开每一位教育工作者的艰苦努力,也离不开每一本技术专著作者的辛勤付出。回看我国高校人工智能专业的发展历史,系统化的学科建设时间还不算长,从完备的学科设置到专业的师资队伍建设,再到相匹配的教材研发还需要进一步加强和完善。

强化学习是机器学习的重要分支,在学习强化学习的过程中会涉及概率、统计、运筹等数理知识。同时,强化学习又是一门实践性非常强的技术,市面上现有的强化学习书籍的学习门槛还相对较高、对初学者不够友好。

由袁莎、白朔天、唐杰等学者联合创作的书籍——《强化学习·微课版》 ,正是基于这一考量, 为读者构建了一个完整的强化学习入门路径,深入浅出地介绍了强化学习算法的基本原理和实现方法。旨在详细介绍强化学习的入门基础知识。

《强化学习·微课版》



本书通过严谨简明的预备知识介绍,有的放矢地为读者梳理强化学习中涉及的数学知识,然后以强化学习拟解决的问题为着眼点,将强化学习要解决的问题转化为求解马尔科夫模型,接着循序渐进地给出了求解此模型的基础求解方法和优化求解方法。


本书看点


1)系统地介绍了强化学习,内容包括学习概述、强化学习预备知识、强化学习基础、表格求解法、近似求解法、实践与前沿六部分,涵盖了强化学习地方方面面。


2)理论与实践结合,偏重实践应用,通过算法原理与实践案例地结合,由浅入深地导入强化学习的概念和方法,达到学以致用。


3)配套资源非常丰富,包括源代码、教学视频和教学大纲


内容简介


本书为读者构建了一个完整的强化学习入门路径,深入浅出地介绍了强化学习算法的基本原理和实现方法。


在正文开始前,本书带着初学者回顾了相关预备知识,包括数学基础和机器学习基础。在正文部分,本书首先介绍了强化学习的基本概念,给出了强化学习的数学框架(马尔可夫决策过程),随后介绍了强化学习的求解算法,包括表格求解法(动态规划法、蒙特卡洛法和时序差分法),以及近似求解法(值函数近似法、策略梯度法和深度强化学习)。本书最后一部分为实践与前沿,实践部分基于一个相同的例子实现了强化学习领域的主流基础算法,前言部分介绍了强化学习领域的最新研究领域进展。


本书内容架构如下所示:



作者简介



袁莎

曾在清华大学计算机系从事博士后研究,南安普顿大学访问学者。北京智源人工智能研究院大模型研究中心副主任,副研究员(副高级)。近年来主要从事知识大模型、数据科学和知识工程等相关研究。作为负责人主持国家重点研发计划课题、国家自然科学基金青年科学基金项目和中国博士后科学基金面上项目等。担任 AI Open 期刊编委。



白朔天

博士,国内一线互联网公司资深算法专家、人工智能顾问。在机器学习、深度学习、强化学习等人工智能技术领域有多年的实际研发经验,技术成果主要应用于 O2O 领域的智能调度、智能营销和智能增长等方向。



唐杰

清华大学计算机系教授、系副主任,获杰青。研究人工智能、认知图谱、数据挖掘、社交网络  和机器学习。


名人荐语


清华大学教授,杨士强

“本书是一本面向初级学者的强化学习书籍。作者从背景、原理、算法、应用四个层面展开,清楚地解释了什么是强化学习,为什么要强化学习和怎样用强化学习。此外,书中架构安排合理,语言表达准确,推理证明齐全,帮助读者尽可能降低了强化学习的理解门槛。”

北京智源人工智能研究院自然语言处理重大研究方向首席科学家,清华大学教授,孙茂松

“本书是强化学习领域的入门书籍。在介绍强化学习的知识前,作者进行了数学和机器学习等相关基础内容的铺垫。本书结合大量清晰易懂的实际应用案例,能够帮助读者更好地理解强化学习各个算法的实现原理,降低了强化学习入门门槛。此外,本书配套数量可观的练习和配套开源代码,对于读者的后续巩固提高很有帮助。”

北京智源人工智能研究院智能信息检索与挖掘重大研究方向首席科学家,中国人民大学教授,文继荣

“袁莎博士、白朔天博士和唐杰教授合著的强化学习入门导引是一本定位清晰、充满诚意的书,作者基于自己学习强化学习的经历,将这一机器学习重要领域的知识娓娓道来,体系完整、充满细节,非常适合作为强化学习的第一本入门书籍。”






福利活动:

#留言#


人工智能飞速发展

元宇宙、虚拟人物

一系列新名词涌入

科技生活也应势而变

你所认为的元宇宙是什么样的?

你幻想中的未来科技时代又是怎么样的?


是像《头号玩家》里一样的VR世界;

还是和《流浪地球》一样的宇宙更迭?

……


在文末评论区你留言

你心目中未来科技世界的样子

我们将抽取

5位朋友送出本次推荐书籍

《强化学习·微课版》

快来参与吧


*本次赠书活动截止时间:

2021年12月25日

登录查看更多
3

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
124+阅读 · 2022年2月27日
专知会员服务
124+阅读 · 2021年8月25日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
122+阅读 · 2021年3月30日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
《Easy RL:强化学习教程》出版了!文末送书
夕小瑶的卖萌屋
2+阅读 · 2022年4月5日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
国家自然科学基金
5+阅读 · 2017年6月30日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年7月12日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
124+阅读 · 2022年2月27日
专知会员服务
124+阅读 · 2021年8月25日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
122+阅读 · 2021年3月30日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关基金
国家自然科学基金
5+阅读 · 2017年6月30日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年7月12日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员