【新书】Python中的深度强化学习：用于聊天机器人和大型语言模型的RLHF，650页pdf - 专知VIP

会员服务 ·

39

书籍 · Python · 深度强化学习 · 聊天机器人 · 大型语言模型 ·

2024 年 7 月 18 日

【新书】Python中的深度强化学习：用于聊天机器人和大型语言模型的RLHF，650页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

**简介

通过理论理解深度强化学习（deep RL）中最流行的库，本新版专注于深度RL的最新进展，采用代码学习的方法，使读者能够理解并复现该领域的最新研究。

**深度强化学习的最新进展

本书介绍了从游戏、机器人到金融的新代理环境，帮助读者尝试将强化学习应用于不同领域。多智能体强化学习章节涵盖了多个智能体的竞争方式，另一章节则专注于广泛使用的深度RL算法——近端策略优化（Proximal Policy Optimization, PPO）。读者将了解如何通过大型语言模型（如ChatGPT）使用人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）来提升对话能力。

**实践与部署

本书还将介绍在多个云系统上使用代码和在Hugging Face Hub等平台上部署模型的步骤。代码采用Jupyter Notebook格式，可以在Google Colab等深度学习云平台上运行，允许读者根据自己的需求调整代码。无论是在游戏、机器人还是生成AI应用中，《Deep Reinforcement Learning with Python》都将帮助您保持技术前沿。

**学习内容

探索基于Python的RL库，包括StableBaselines3和CleanRL
使用多样化的RL环境，如Gymnasium、Pybullet和Unity ML
理解使用RLHF和PPO进行大型语言模型的指令微调
学习使用Hugging Face、Weights and Biases和Optuna的训练和优化技术

**适合人群

本书适合希望提升对深度RL理解并获取实际实现RL算法技能的软件工程师和机器学习开发者。通过本书，您将能够从头开始实现并优化RL算法，掌握前沿技术应用于实际项目。

成为VIP会员查看完整内容

68

相关内容

书籍在狭义上的理解是带有文字和图像的纸张的集合。广义的书则是一切传播信息的媒体。

【新书】优化算法:用于设计、规划和控制问题的人工智能技术，669页pdf

【新书】优化算法:用于设计、规划和控制问题的人工智能技术，669页pdf

专知会员服务

95+阅读 · 2024年8月28日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

67+阅读 · 2024年8月24日

【2023新书】《强化学习的艺术：基础知识、数学原理与Python实现》，290页pdf

【2023新书】《强化学习的艺术：基础知识、数学原理与Python实现》，290页pdf

专知会员服务

158+阅读 · 2023年12月18日

【2023新书】复杂决策研究进展:面向服务计算的机器学习和工具，127页pdf

【2023新书】复杂决策研究进展:面向服务计算的机器学习和工具，127页pdf

专知会员服务

84+阅读 · 2023年11月5日

【Manning新书】面向数据编程降低软件复杂度，426页pdf

【Manning新书】面向数据编程降低软件复杂度，426页pdf

专知会员服务

88+阅读 · 2022年9月5日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知会员服务

267+阅读 · 2022年7月3日

【新书】MATLAB深度学习与机器学习、神经网络和人工智能（MATLAB Deep Learning With Machine Learning, Neural Networks and Artificial Intelligence），162页pdf，

【新书】MATLAB深度学习与机器学习、神经网络和人工智能（MATLAB Deep Learning With Machine Learning, Neural Networks and Artificial Intelligence），162页pdf，

专知会员服务

92+阅读 · 2020年1月13日

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

专知会员服务

214+阅读 · 2020年1月13日

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

专知会员服务

95+阅读 · 2020年1月9日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

专知

25+阅读 · 2022年10月26日

【2022新书】应用深度学习：工具、技术与实现，355页pdf

【2022新书】应用深度学习：工具、技术与实现，355页pdf

专知

42+阅读 · 2022年7月26日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知

21+阅读 · 2022年7月3日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

34+阅读 · 2022年6月2日

【Manning新书】大规模数据结构和算法，306页pdf

【Manning新书】大规模数据结构和算法，306页pdf

专知

14+阅读 · 2022年5月30日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

30+阅读 · 2022年5月26日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【干货书】R语言书: 编程和统计的第一课程，835页pdf

【干货书】R语言书: 编程和统计的第一课程，835页pdf

专知

40+阅读 · 2020年5月9日

【新书】深度学习搜索，Deep Learning for Search，327页pdf

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

37+阅读 · 2015年12月31日

基于GMDH动态聚类集成的应用商店客户价值细分研究

国家自然科学基金

1+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

波动率微笑：隐含信息与动态建模

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

深度强化学习

聊天机器人

大型语言模型

相关VIP内容

【新书】优化算法:用于设计、规划和控制问题的人工智能技术，669页pdf

【新书】优化算法:用于设计、规划和控制问题的人工智能技术，669页pdf

专知会员服务

95+阅读 · 2024年8月28日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

67+阅读 · 2024年8月24日

【2023新书】《强化学习的艺术：基础知识、数学原理与Python实现》，290页pdf

【2023新书】《强化学习的艺术：基础知识、数学原理与Python实现》，290页pdf

专知会员服务

158+阅读 · 2023年12月18日

【2023新书】复杂决策研究进展:面向服务计算的机器学习和工具，127页pdf

【2023新书】复杂决策研究进展:面向服务计算的机器学习和工具，127页pdf

专知会员服务

84+阅读 · 2023年11月5日

【Manning新书】面向数据编程降低软件复杂度，426页pdf

【Manning新书】面向数据编程降低软件复杂度，426页pdf

专知会员服务

88+阅读 · 2022年9月5日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知会员服务

267+阅读 · 2022年7月3日

【新书】MATLAB深度学习与机器学习、神经网络和人工智能（MATLAB Deep Learning With Machine Learning, Neural Networks and Artificial Intelligence），162页pdf，

【新书】MATLAB深度学习与机器学习、神经网络和人工智能（MATLAB Deep Learning With Machine Learning, Neural Networks and Artificial Intelligence），162页pdf，

专知会员服务

92+阅读 · 2020年1月13日

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

【新书】深度学习搜索，Deep Learning for Search，附327页pdf

专知会员服务

214+阅读 · 2020年1月13日

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

专知会员服务

95+阅读 · 2020年1月9日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

《解析陆域作战方向：一个概念性框架》报告

【博士论文】基于多模态基础模型的上下文学习

追寻真正的AI自主性：从遗留思维到战场优势

相关资讯

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

专知

25+阅读 · 2022年10月26日

【2022新书】应用深度学习：工具、技术与实现，355页pdf

【2022新书】应用深度学习：工具、技术与实现，355页pdf

专知

42+阅读 · 2022年7月26日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知

21+阅读 · 2022年7月3日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

34+阅读 · 2022年6月2日

【Manning新书】大规模数据结构和算法，306页pdf

【Manning新书】大规模数据结构和算法，306页pdf

专知

14+阅读 · 2022年5月30日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

30+阅读 · 2022年5月26日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【干货书】R语言书: 编程和统计的第一课程，835页pdf

【干货书】R语言书: 编程和统计的第一课程，835页pdf

专知

40+阅读 · 2020年5月9日

【新书】深度学习搜索，Deep Learning for Search，327页pdf

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

相关基金

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

37+阅读 · 2015年12月31日

基于GMDH动态聚类集成的应用商店客户价值细分研究

国家自然科学基金

1+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

波动率微笑：隐含信息与动态建模

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员