这是一部位于强化学习研究前沿的研究型专著,也被称为近似动态规划(Approximate Dynamic Programming)或神经动态规划(Neuro-Dynamic Programming)。本书旨在对作者于2019年由Athena Scientific出版的《强化学习》教材中的若干方法进行更深入的拓展和发展。特别地,我们展示了一些与多智能体系统、分区式体系结构以及分布式异步计算相关的最新研究成果。

我们特别关注动态规划/策略迭代与控制理论/模型预测控制的研究背景,同时详细探讨了将这些方法应用于具有挑战性的离散/组合优化问题中的策略,包括路径规划、调度、指派和混合整数规划等问题,并结合神经网络近似方法在这些场景中的使用。

本书聚焦于策略迭代这一核心思想,即从某一初始策略出发,逐步生成一个或多个改进的策略。若每次仅生成一个改进策略,则称为Rollout。基于广泛且一致的计算经验,Rollout 被认为是所有强化学习方法中最通用且最可靠的方法之一。它不仅可通过易于实现的仿真在线运行,还能应用于离散确定性组合优化问题以及随机马尔可夫决策问题。此外,Rollout 可在线使用由策略迭代或其他方法(包括策略梯度方法)离线生成的策略,并在此基础上进一步提升其性能。

本书中大量的新研究灵感来源于 AlphaZero 国际象棋程序。在该程序中,策略迭代、价值与策略网络、近似前瞻优化以及并行计算均发挥了关键作用。除连续策略改进这一基本过程外,该程序还采用深度神经网络来表示价值函数与策略,广泛利用大规模并行计算,并通过蒙特卡洛树搜索与前瞻树剪枝等方法简化前瞻优化过程。本书同样聚焦于策略迭代、价值与策略的神经网络表示、并行与分布式计算以及前瞻简化。因此,尽管在具体应用上存在显著差异,本专著核心设计思想与 AlphaZero 架构有诸多共通之处,不过我们将这些思想置于更广泛、非特定任务的理论框架下进行发展。

本书的几个突出特点包括:

提出了有关分布式异步计算、分区体系结构与多智能体系统的新研究成果,应用于部分可观测马尔可夫决策问题等具有挑战性的大规模优化问题;

描述了针对具有多智能体结构的问题所设计的 Rollout 与策略迭代的变体,这些方法可显著降低前瞻优化的计算负担;

建立了 Rollout 与**模型预测控制(Model Predictive Control)**之间的联系,后者是控制系统设计中的关键方法之一;

展示了受限条件下与多智能体形式的 Rollout 在离散与组合优化问题中的应用场景。

成为VIP会员查看完整内容
25

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【经典书】高效机器学习,Efficient Learning Machines,263页pdf
神经网络首看书《神经网络与机器学习》,中英文版本
专知会员服务
147+阅读 · 2021年12月25日
【纽约大学经典书】《机器学习基础》第二版,505页pdf
专知会员服务
140+阅读 · 2021年10月31日
【干货书】PyTorch 深度学习,255页pdf
专知会员服务
278+阅读 · 2021年4月3日
专知会员服务
28+阅读 · 2021年3月7日
【干货书】Python高级数据科学分析,424页pdf
专知会员服务
117+阅读 · 2020年8月7日
【2022新书】强化学习工业应用
专知
18+阅读 · 2022年2月3日
医学图像处理与深度学习入门
人工智能前沿讲习班
17+阅读 · 2019年6月6日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员