最近,深度强化学习(RL)方法已被成功应用于多智能体场景。通常情况下,分布式决策的观测向量是由一个智能体收集的关于其他智能体(局部)信息的串联来表示。然而,串联法在具有大量同质智能体的集群系统中的扩展性很差,因为它没有利用这些系统固有的基本特性:(i)集群中的智能体是可以互换的;(ii)集群中智能体的确切数量是不相关的。因此,我们提出了一种新的基于分布式均值嵌入的深度多智能体RL状态表示,我们将智能体视为样本,并使用经验的均值嵌入作为分布式策略的输入。我们使用直方图、径向基函数和端到端训练的神经网络来定义均值嵌入的不同特征空间。我们对集群文献中的两个著名问题--交会和追赶逃避--在全局和局部可观察的设置中评估了该表示。对于本地设置,我们进一步引入了简单的通信协议。在所有的方法中,使用神经网络特征的平均嵌入表示能够在相邻的智能体之间进行最丰富的信息交流,促进复杂的集体策略的开发。