DCIST联盟成员的一篇论文开发了一种多智能体强化学习(MARL)算法,该算法使用编码理论来减轻分布式训练中的滞留者效应。滞留者是指延迟的、无反应的或被破坏的计算节点,由于通信瓶颈和对抗性条件,在分布式学习系统中经常发生。编码技术已经被用来加速存在散兵游勇的分布式计算任务,如矩阵乘法和逆问题。他们提出的编码分布式学习框架可以与任何策略梯度方法一起应用,在存在散兵游勇的情况下为MARL问题训练策略。他们开发了多智能体深度确定性策略梯度(MADDPG)的编码分布式版本,这是一种最先进的MARL算法。为了全面了解编码在分布式MARL中的好处,他们研究了各种编码方案,包括最大距离可分离(MDS)编码、随机稀疏编码、基于复制的编码和常规低密度奇偶校验(LDPC)编码。所有这些方法都在几个多机器人问题的模拟中实现,包括协作导航、捕食者-猎物、物理欺骗和远离任务。他们的方法实现了相同的训练精度,同时大大加快了策略梯度算法的训练速度。

图 1:MARL 的未编码分布式学习示意图。

成为VIP会员查看完整内容
53

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
88+阅读 · 2022年12月12日
【硬核书】迁移学习多智能体强化学习系统,131页pdf
专知会员服务
144+阅读 · 2022年7月8日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
13+阅读 · 2022年6月4日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
一文读懂字符编码
阿里技术
0+阅读 · 2022年10月12日
【NeurIPS2022】分布式自适应元强化学习
专知
3+阅读 · 2022年10月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员