强化学习(Reinforcement Learning)作为一种机器学习技术,已在解决复杂的序列决策问题中取得显著进展。许多实际任务涉及多个智能体,并需要通过序列决策策略以达成共同目标,例如仓库自动化、自动驾驶及游戏对抗等。为了为所有智能体学习合适的策略,这类问题可建模为多智能体系统,并通过多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)进行求解。
然而,在多智能体场景下优化策略仍面临诸多挑战,主要原因在于智能体行为的复杂性以及环境动态的非平稳性。首先,在部分可观测环境中,多智能体行为的复杂性显著增加了策略优化的难度。此外,智能体行为的动态变化及其与其他智能体之间的交互会不断改变环境状态和智能体观察结果,在开放环境下更为复杂。再者,现实中的多智能体任务往往需要在个体目标与整体目标之间实现权衡,这也进一步增加了决策制定的复杂度。 本博士论文旨在针对三类关键的多智能体研究问题提出解决方案,内容涵盖从理论分析到实际应用。具体研究内容如下:
我们首先研究了在部分可观测环境中学习高效策略的问题。我们关注的情境是:一组智能体在信息受限(无法观测对手信息)的前提下与另一组智能体(即对手)展开对抗合作。为解决该问题,我们提出了一种新颖的多智能体分布式actor-critic算法,实现基于本地信息的对手建模。该方法中,actor维持一个“推测性对手模型”(speculative opponent model),利用自身的观测、动作和奖励来预测对手行为并据此决策。critic则建模策略的回报分布,从而评估actor表现并指导对手建模的训练。大量实验表明,在无对手数据的情况下,我们的方法依然能准确建模其行为,并在性能与收敛速度上优于现有基线方法。
其次,在某些环境中,智能体的队友数量及其策略会随着市场需求变化而动态变化,使得智能体必须能够适应多种任务组合。针对这一挑战,我们提出了一种基于强化学习的方法,使得控制智能体能够在开放环境中与动态队友展开协作。我们设计了一种“双重团队状态推理模型”,以在部分可观测条件下捕捉当前团队状态并辅助合理决策。针对队友策略的多样性,我们首先引入基于“中餐馆过程”(Chinese Restaurant Process)的模型,将不同队友策略归类为多个簇,提升对当前团队状态的识别效率。随后,采用异构图注意力神经网络(Heterogeneous Graph Attention Networks)学习团队状态的表示,进一步支持多变队友数量与行为的建模。实验结果表明,该方法在多种临时协作任务中相较现有方法具有更快的收敛速度与更优的性能表现。 最后,在诸如路径规划、仓储管理等现实任务中,决策者不仅要追求整体最优,还需兼顾各智能体之间的个体公平性。在此类多目标优化任务中,如何在学习效率与公平性之间实现平衡成为一大难题,尤其当前多数方法仍局限于仿真环境。为此,我们提出了一种创新性的多智能体强化学习方法,以实现个体目标与集体目标的协同优化。在多个合成与真实数据集上的实验结果表明,该方法不仅优于现有的深度强化学习(DRL)方法,同时在优化速度上也明显快于传统启发式算法,展示出在公平性与效率兼顾下的现实可用性。此方法为将“公平性”纳入实际多智能体应用提供了有效路径,推动了物流等行业中更公正、高效的智能决策系统发展。
综上所述,本文围绕多智能体决策制定中的三类核心研究问题展开,分别对应部分可观测性、开放式环境以及个体-集体目标冲突等挑战。针对这些问题,论文提出了三套创新的MARL方法,能够在复杂环境下实现高效策略训练与优化表现。此外,本文还在MARL关键模块方面作出探索性设计,包括马尔可夫决策过程(MDP)建模、策略网络、训练算法以及推理方法等。这些贡献显著提升了协作式MARL的性能与效率,树立了新的性能基准。