深度强化学习(RL)在各个领域取得了显著的成功,包括在围棋和国际象棋等游戏中的使用。最近,深度多智能体强化学习(MARL)引起了广泛关注,因为大量现实世界的问题可以自然地在MARL环境中表示。例如,自主车辆与无人机或机器人编队的协调控制需要多个智能体根据局部观察采取行动并协调其行为。然而,单智能体深度强化学习和多智能体深度强化学习都面临着一个共同的挑战:数据效率低和训练时间长。本文向解决该问题迈出了一步:如何使(多智能体)深度强化学习更有效,即如何使用更少的数据和减少训练时间?本文从五个方面解决深度强化学习的训练时间长和数据效率低的问题:(1)并行高通量训练;(2)更好的表示学习;(3)迁移学习;(4)高效探索;(5)训练智能体以利用外部知识。对于1),为了实现更高的强化学习训练吞吐量,我们提出了一个快速强化学习训练框架,该框架并行收集数据,而不牺牲强化学习算法的数据效率。对于2),研究了图卷积网络的使用,以捕获MARL中常用的集中式批评器的排列不变性质。我们发现这可以导致更有效的学习。研究了一种以物体为中心的表示,将多智能体RL算法扩展到复杂的视觉环境。3)为了让强化学习智能体利用经过训练的智能体的"知识",本文提出了一个迁移学习框架,该框架允许学生模型利用多个教师模型的"知识"。我们发现这种迁移可以导致更快的学习。对于4),研究了协调的多智能体探索,这允许智能体协调它们的探索努力,并更快地学习。最后,对于5),本文提出了"知识询问" (AFK),一个学习生成语言命令以查询有意义的知识的智能体,以更有效地解决给定的任务。综上所述,本文研究了提高深度强化学习数据效率和训练时间的方法。我们相信,通过更短的训练时间和更好的数据效率,(多智能体)深度强化学习可以应用于各种现实世界的问题,本文提出的方法使我们更接近这一目标。