本文介绍了一种通过整合领域知识和基于注意力的策略机制来增强多智能体强化学习(MARL)的替代方法。方法侧重于将特定领域的专业知识融入学习过程,从而简化协作行为的开发。这种方法旨在通过使智能体专注于复杂任务的重要方面,从而优化学习曲线,降低与 MARL 相关的复杂性和学习开销。在我们的模型中,注意力机制的利用起到了关键作用。它可以有效处理动态上下文数据和智能体之间细微的互动,从而做出更精细的决策。在斯坦福智能系统实验室(SISL)“追逐 ”和 “多粒子环境”(MPE)“简单扩展 ”等标准 MARL 场景中的应用表明,我们的方法既能提高学习效率,又能提高协作行为的有效性。结果表明,我们基于注意力的方法可以在行动层面整合特定领域的知识,是提高 MARL 训练过程效率的可行方法。