深度强化学习实验室
由北京大学前沿计算研究中心助理教授董豪博士等编写的深度强化学习专著《深度强化学习:基础、研究与应用(Deep ReinforcementLearning: Foundamentals, Research and Applications)》英文版于2020年6月由 Springer 发行,中文简体、繁体版先后于2021年6月、2022年1月发行,并于2022年2月对中文简体版开放免费下载。
内容摘要
深度强化学习是实现智能决策的关键技术之一,对人工智能、机器人、认知科学、金融、资源调配等重大应用需求和研究方向有重要的意义。深度学习是基于深度神经网络的机器学习方法。深度强化学习是强化学习和深度学习的结合体,随着近几十年来深度学习发展的热潮,计算硬件 GPU、CPU、TPU 等性能快速提升,深度强化学习作为一个新的重要学科分支吸引了越来越多的科研和产业人员的关注。本书从基本强化学习理论,到深度强化学习算法,再到实际应用与实践,给读者带来相对全面且实用的深度强化学习知识,便于读者学习和开展研究工作。
本书分为三大部分,覆盖了学习深度强化学习所需的所有内容。第一部分介绍了强化学习的基础知识、常用的深度强化学习算法及其实现方法。第二部分对精选的深度强化学习研究方向展开介绍,这对希望开展相关研究的读者非常有意义。为了帮助读者更加深入地理解深度强化学习细节并把相关技术应用到实际中,本书第三部分仔细地讲述了大量应用的实现细节,例如机器人学习跑步、机械臂控制、下围棋、多智能体平台等等,并提供相关的开源代码。
本书可以作为在深度强化学习相关领域工作的教师、学生或工程师的阅读材料和参考书。一方面可以帮助读者从零开始学习强化学习,到深入具体的研究方向;另一方面可以帮助读者快速地把深度强化学习技术用于实际项目中。配合本书的开源代码,帮助读者充分利用好 CPU 和 GPU 等计算资源,提升深度强化学习实验结果,加深对研究应用项目的理解,推动整个人智能领域的发展。
专家推荐
郭毅可
帝国理工学院教授、数据科学研究所创始所长
香港浸会大学副校长
英国皇家工程院院士,欧洲科学院院士
我对这本书覆盖内容的范围之广印象深刻。从深度强化学习的基础理论知识,到包含代码细节的技术实现描述,作者们花了大量的精力致力于提供综合且广泛的内容。这种风格的书籍是对初学者和科研人员绝佳的学习材料。拥抱开源社区是深度学习得到快速发展不可或缺的一个原因。我很欣慰这本书提供了大量的开源代码。我也相信这本书将会对那些希望深入这个领域的研究人员非常有用,也对那些希望通过开源例子快速上手的工程师提供良好的基础。
陈宝权
北京大学博雅特聘教授
前沿计算研究中心执行主任
IEEE Fellow
这本书提供了可靠的深度强化学习内容介绍,缩小基础理论和实践之间的差距,以提供详细的描述和算法实现为特色,提供大量技巧和速查表。作者们由研究强化学习的顶级大学研究者和将技术用在各类应用中的开源社区实践者组成。这本书为有着不同背景和阅读目的的读者提供了非常有用的资源。
金 驰
普林斯顿大学助理教授
这是一本关于深度强化学习这个重要领域的适时的书籍。这本书以一种简明清晰的风格提供了详尽的工具:包括深度强化学习的基础和重要算法,具体实现细节,和对研究方向的前瞻。这本书对任何愿意学习深度强化学习、将深度强化学习算法运用到某些应用上或开始进行深度强化学习基础研究的人来说都是很理想的学习材料。
李克之
伦敦大学学院助理教授
这本书是为强化学习、特别是深度强化学习的忠实粉丝提供的。从2013年开始,深度强化学习已经渐渐地以多种方式改变了我们生活和世界,比如自动驾驶技术、会下棋的 AlphaGo 技术的出现。它展示对“围棋之美”超过专业选手的理解能力。类似的情况也发生在技术、医疗和金融领域。深度强化学习探索了一个人类最基本的问题:人类是如何通过与环境交互进行学习的?这个机制可能成为逃出“大数据陷阱”的关键因素,作为一条强人工智能的必经之路,通向没有人类智慧所企及的地方。
这本书由一群对机器学习充满热情的年轻研究人员编著,它将给你展示深度强化学习的世界,通过实例和经验介绍加深你的理解。推荐此书给所有想把未来智慧之匙揣进口袋的学习者。
作者团队
本书作者团队全部为一线科研人员和开源社区成员,使用深度强化学习解决不同领域的问题。本书内容缩小了理论和实践之间的距离,提供了大量工程实现的细节和技巧。团队的多样性使得本书风格对不同领域的读者更为友好,并对代码库进行支持和维护。
编者团队
董豪,北京大学计算机学院、前沿计算研究中心助理教授,博士生导师。于2019年秋获得英国帝国理工学院博士学位。研究方向主要涉及计算机视觉和机器人,目的是降低学习智能系统所需要的数据,实现自主学习。他致力于推广人工智能技术,是深度学习开源框架 TensorLayer 的创始人,并获得 ACM MM 2017年度最佳开源软件奖。他在英国帝国理工和英国中央兰开夏大学获得一等研究生和一等本科学位。
丁子涵,普林斯顿大学博士。于2019年获得英国帝国理工学院硕士学位,曾在加拿大 Borealis AI、腾讯 Robotics X 实验室有过工作经历。本科就读中国科学技术大学,获物理和计算机双学位。研究方向主要涉及强化学习、机器人控制、计算机视觉等。在 ICRA, IROS, NeurIPS, AAAI, IJCAI, Physical Review 等顶级期刊与会议发表多篇论文,是 TensorLayer-RLzoo、TensorLet 和 Arena 等开源代码库的贡献者。
仉尚航,北京大学计算机学院助理教授,博士生导师。于2018年博士毕业于美国卡内基梅隆大学,后于2020年加入加州大学伯克利分校 BAIR 实验室任博士后研究员。研究方向主要为开放环境泛化机器学习理论与系统,同时在计算机视觉和强化学习方向拥有丰富研究经验。在人工智能顶级期刊和会议上发表论文30余篇,并申请5项美中专利。获 AAAI'21最佳论文奖,美国2018年度“EECS Rising Star”,Adobe 学术合作基金,Qualcomm 创新奖提名等。
作者访谈
问:为什么写这本书?
答:我们写这本书的初衷是因为市面上很少有书籍或者教程能同时覆盖从“0到1”和“从1到N”的深度强化学习内容,学习材料非常零散。因此,我们希望能够用一套统一的符号和代码,来讲解深度强化学习,让学生能快速地对整个领域有清晰的系统性认知。
问:写这本书最大的收获是什么?
答:写这本书对我们来说有两方面的收获。一方面,实现了我们知识传播的初衷。另一方面,对我们作者团队来说,我们相互学习了很多知识。
问:为什么先有英文版,后面又翻译成中文呢?
答:因为强化学习领域比较前沿的内容都是英文的,为了方便编写,最先成书是英文版本。后来反响良好,纸质版和电子版销售量都很大,电子版本下载量已经超过了8万册。我们也建立了读者交流群,很多读者都表示希望能有中文版本。因此,我们把书翻译成了中文,并决定把这本书的中文版本免费开源出来,希望可以更好地帮助大家学习。
问:听说还出了繁体版本?
答:是的。由于中文简体版比较受欢迎,有港台地区同学反映希望能有繁体字版本,于是出版社翻译了繁体字版本,现已在线发售。为了适应当地同学阅读习惯,繁体字版本的部分用词语句都做了一些调整,包括书的题目也有所更改,更加符合当地同学阅读习惯。
问:写作中遇到的最大困难是什么?
写这本书的工作量是巨大的,作者们的工作和学习都很忙,都是兼职写这本书,而且还有好几个配套的代码库,能够按计划完成已经挺不容易了。因此,我们探索并采用了开源的模式来写作,不过前后也花费了一年多的时间。