多智能体强化学习(RL)研究的是环境中存在多个智能体并共同决定环境转变的情况下的顺序决策问题。智能体之间的关系可以是合作、竞争或混合的,这取决于各智能体的奖励如何协调。与单智能体 RL 相比,多智能体 RL 具有独特而复杂的结构,尚未得到充分认识。本论文的总体目标是加强对各种环境下多智能体 RL 结构的理解,并建立利用和/或尊重该结构的可靠而高效的算法。
首先,我们发现 RL 中的许多数据驱动算法,如梯度时差学习算法和行动者批判算法,本质上都是通过跟踪决策变量之外的人工辅助变量并以不同的速率更新它们来解决双层优化问题。我们提出了一种特殊梯度甲骨文下的双时间尺度随机梯度下降方法,将这些算法及其分析抽象到一个统一的框架中。我们根据 RL 问题中常见的目标函数的几个结构特性,描述了双时间尺度梯度算法的收敛速率。这个框架以单智能体 RL 问题为目标,为设计和研究数据驱动的多智能体 RL 算法奠定了数学基础。
其次,我们考虑的是完全合作环境下的多智能体 RL,在这种环境下,一个连接的、分散的智能体网络会合作解决多个 RL 任务。我们的第一个问题表述是,每个任务部署一个智能体,并考虑学习一个能使所有任务的平均累积收益最大化的单一策略。我们描述了多任务 RL 与单任务 RL 在结构上的主要区别,这使得多任务 RL 从根本上成为一个更具挑战性的问题。然后,我们扩展了我们的表述,考虑在每个任务的回报率受到约束的情况下最大化平均回报率,这形成了一个更灵活的框架,对于现实生活中的多任务 RL 应用建模可能更实用。我们提出并研究了分散(受限)策略梯度算法,用于优化这两种表述中的目标,并通过富有启发性的数值模拟验证了我们的分析。
上一章研究了合作智能体,现在我们将重点转移到智能体相互竞争的情况。我们研究的是双人零和马尔可夫博弈,它是竞争性多智能体 RL 的一个特例,被自然地表述为一个非凸非凹 minimax 优化程序,并考虑用简单的梯度下降上升(GDA)算法来解决它。底层目标函数的非凸/非凹性给 GDA 算法的分析带来了巨大挑战。我们通过熵正则化为马尔可夫博弈引入了强结构。我们将 GDA 应用于正则化目标,并提出了调整正则化权重的方案,以使 GDA 算法高效收敛到全局纳什均衡。
到目前为止,我们讨论的作品都是从优化的角度来处理 RL 的。在最后一章,我们将应用 RL 来解决优化问题。具体来说,我们针对通过 ADMM 解决的交流最优功率流 (ACOPF) 问题,开发了一种基于多智能体 RL 的惩罚参数选择方法,目标是最大限度地减少迭代次数,直至收敛。与最先进的手工设计参数选择方案相比,我们的方法大大加快了 ADMM 的收敛速度,并表现出卓越的普适性。
各章安排如下。在第 2 章中,讨论了双时间尺度随机优化框架,该框架模拟了基于样本的单智能体 RL 算法。第 3 章,研究多任务多智能体 RL 问题。第 4 章介绍了一种基于正则化的双人零和马尔可夫博弈 GDA 方法。第 5 章应用 RL 改进电力系统优化问题的解决方案。最后,在第 6 章中对未来可能开展的工作进行了总结和评论。由于这些工作都是数学性质的,在正文中介绍了问题的表述、算法、假设和主要理论结果,并将分析工作推迟到 A-C 章的附录中进行。