强化学习(Reinforcement Learning)作为一种机器学习技术,已在解决复杂的序列决策问题中取得显著进展。许多实际任务涉及多个智能体,并需要通过序列决策策略以达成共同目标,例如仓库自动化、自动驾驶及游戏对抗等。为了为所有智能体学习合适的策略,这类问题可建模为多智能体系统,并通过多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)进行求解。

然而,在多智能体场景下优化策略仍面临诸多挑战,主要原因在于智能体行为的复杂性以及环境动态的非平稳性。首先,在部分可观测环境中,多智能体行为的复杂性显著增加了策略优化的难度。此外,智能体行为的动态变化及其与其他智能体之间的交互会不断改变环境状态和智能体观察结果,在开放环境下更为复杂。再者,现实中的多智能体任务往往需要在个体目标与整体目标之间实现权衡,这也进一步增加了决策制定的复杂度。 本博士论文旨在针对三类关键的多智能体研究问题提出解决方案,内容涵盖从理论分析到实际应用。具体研究内容如下:

我们首先研究了在部分可观测环境中学习高效策略的问题。我们关注的情境是:一组智能体在信息受限(无法观测对手信息)的前提下与另一组智能体(即对手)展开对抗合作。为解决该问题,我们提出了一种新颖的多智能体分布式actor-critic算法,实现基于本地信息的对手建模。该方法中,actor维持一个“推测性对手模型”(speculative opponent model),利用自身的观测、动作和奖励来预测对手行为并据此决策。critic则建模策略的回报分布,从而评估actor表现并指导对手建模的训练。大量实验表明,在无对手数据的情况下,我们的方法依然能准确建模其行为,并在性能与收敛速度上优于现有基线方法。

其次,在某些环境中,智能体的队友数量及其策略会随着市场需求变化而动态变化,使得智能体必须能够适应多种任务组合。针对这一挑战,我们提出了一种基于强化学习的方法,使得控制智能体能够在开放环境中与动态队友展开协作。我们设计了一种“双重团队状态推理模型”,以在部分可观测条件下捕捉当前团队状态并辅助合理决策。针对队友策略的多样性,我们首先引入基于“中餐馆过程”(Chinese Restaurant Process)的模型,将不同队友策略归类为多个簇,提升对当前团队状态的识别效率。随后,采用异构图注意力神经网络(Heterogeneous Graph Attention Networks)学习团队状态的表示,进一步支持多变队友数量与行为的建模。实验结果表明,该方法在多种临时协作任务中相较现有方法具有更快的收敛速度与更优的性能表现。 最后,在诸如路径规划、仓储管理等现实任务中,决策者不仅要追求整体最优,还需兼顾各智能体之间的个体公平性。在此类多目标优化任务中,如何在学习效率与公平性之间实现平衡成为一大难题,尤其当前多数方法仍局限于仿真环境。为此,我们提出了一种创新性的多智能体强化学习方法,以实现个体目标与集体目标的协同优化。在多个合成与真实数据集上的实验结果表明,该方法不仅优于现有的深度强化学习(DRL)方法,同时在优化速度上也明显快于传统启发式算法,展示出在公平性与效率兼顾下的现实可用性。此方法为将“公平性”纳入实际多智能体应用提供了有效路径,推动了物流等行业中更公正、高效的智能决策系统发展。

综上所述,本文围绕多智能体决策制定中的三类核心研究问题展开,分别对应部分可观测性、开放式环境以及个体-集体目标冲突等挑战。针对这些问题,论文提出了三套创新的MARL方法,能够在复杂环境下实现高效策略训练与优化表现。此外,本文还在MARL关键模块方面作出探索性设计,包括马尔可夫决策过程(MDP)建模、策略网络、训练算法以及推理方法等。这些贡献显著提升了协作式MARL的性能与效率,树立了新的性能基准。

成为VIP会员查看完整内容
2

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
31+阅读 · 4月8日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
38+阅读 · 2024年10月21日
【牛津大学博士论文】有效的离线训练与高效的在线适应
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
相关论文
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员