多智能体强化学习中的稳健且高效的通信

摘要—— 多智能体强化学习（MARL）在促成自主智能体之间的协同行为方面已经取得显著进展。然而，大多数现有方法均假设通信是即时的、可靠的且具有无限带宽；这些条件在真实世界部署中很难满足。本综述系统性地回顾了在现实约束下实现稳健且高效通信的最新研究进展，这些约束包括消息扰动、传输延迟以及带宽受限。此外，由于低时延可靠性、带宽密集型数据共享以及通信—隐私权衡等挑战是实际 MARL 系统的核心问题，我们重点讨论三个典型应用场景：协作式自动驾驶、分布式同时定位与建图（SLAM），以及联邦学习。最后，我们明确指出若干关键开放挑战与未来研究方向，倡导一种联合设计通信、学习与稳健性的整体方法，以弥合理论 MARL 模型与实际系统实现之间的鸿沟。

I. 引言

多智能体强化学习（MARL）已成为解决涉及多个自主智能体的复杂序列决策问题的基石方法 [1]，推动了机器人学 [2]、自治系统 [3]、智能电网 [4] 与通信网络 [5] 等多个领域的快速发展。这类问题的核心挑战在于：在只能依赖不完全可观测信息以及或许不够及时的分散式信息的情况下，使智能体能够学习到有效且协调的策略。去中心化部分可观测马尔可夫决策过程（Dec-POMDP）为建模合作式多智能体问题提供了经典框架，它形式化地刻画了每个智能体基于自身局部观测历史采取行动、同时努力最大化共享全局目标的复杂性 [6]–[8]。尽管 Dec-POMDP 为 MARL 提供了数学基础，但在实践中 MARL 的有效性往往受制于智能体之间通信信道的质量及其特性。即时、可靠、无限带宽通信的理想化假设在真实系统中往往难以成立。通信链路可能受到噪声与对抗性攻击的影响 [9], [10]，可能面临不可预测的延迟、丢包与异步消息到达 [11], [12]，并且常常受限于严格的带宽约束 [13], [14]。这些实际中的不完美因素会破坏学习算法的稳定性，干扰协调机制，甚至导致系统失效，从而形成理论模型与真实应用之间的显著鸿沟。因此，开发稳健且高效的通信策略成为 MARL 研究中的关键挑战，它对于弥合这一鸿沟、使 MARL 能够在现实且存在瑕疵的环境中可靠部署具有重要意义。虽然近年来已有多篇综述推动了人们对 MARL 的理解，但这些综述主要关注开放环境下的协调 [15]、通用算法范式 [16]、分布式训练框架 [17] 以及更广泛语境下的对抗鲁棒性 [18]。尽管这些工作提供了宝贵洞见，并偶尔涉及通信相关内容，但它们并未系统地讨论在现实通信约束（如消息损坏、传输延迟和带宽受限）下的 MARL。因而，目前文献中仍缺乏对非理想条件下通信稳健性与通信效率的专门、结构化分析。针对这一空白，本综述对针对不完美通信环境的稳健且高效的通信策略的最新研究进行深入回顾。我们并非简单罗列所有提升通信效率的技术，而是特别关注在面对实际通信阻碍时通信是如何建模、分析与保障的。我们考察多种干扰与延迟模型，并探讨这些挑战在不同 MARL 框架中是如何被应对的。我们的目标是弥合理论 MARL 模型与真实应用之间的落差，为研究者和实践者提供一个聚焦且补充现有更广泛综述的视角。为此，本文余下部分组织如下：第二节介绍基础问题表征，包括马尔可夫博弈与 Dec-POMDP。第三节讨论通信在干扰与带宽受限条件下的特性。第四节分析存在延迟的通信式 MARL，包括固定与随机延迟场景，以及面向延迟的学习机制。第五节从统一视角出发，讨论 MARL 中的通信效率，包括消息压缩与稀疏化、面向决策的通信调度，以及在降低带宽的同时保持协调质量的高效信息整合方法。第六节介绍协作式自动驾驶、分布式 SLAM 与联邦学习等关键领域中的典型应用。第七节综合文献洞见并概述未来有前景的研究方向。最后，第八节对全文进行总结。希望通过这一清晰的结构化论述，为研究者与开发者理解并推动 MARL 中稳健且高效的通信研究提供明确框架。