DCIST联盟成员的一篇论文开发了一种多智能体强化学习(MARL)算法,该算法使用编码理论来减轻分布式训练中的滞留者效应。滞留者是指延迟的、无反应的或被破坏的计算节点,由于通信瓶颈和对抗性条件,在分布式学习系统中经常发生。编码技术已经被用来加速存在散兵游勇的分布式计算任务,如矩阵乘法和逆问题。他们提出的编码分布式学习框架可以与任何策略梯度方法一起应用,在存在散兵游勇的情况下为MARL问题训练策略。他们开发了多智能体深度确定性策略梯度(MADDPG)的编码分布式版本,这是一种最先进的MARL算法。为了全面了解编码在分布式MARL中的好处,他们研究了各种编码方案,包括最大距离可分离(MDS)编码、随机稀疏编码、基于复制的编码和常规低密度奇偶校验(LDPC)编码。所有这些方法都在几个多机器人问题的模拟中实现,包括协作导航、捕食者-猎物、物理欺骗和远离任务。他们的方法实现了相同的训练精度,同时大大加快了策略梯度算法的训练速度。
图 1:MARL 的未编码分布式学习示意图。