多智能体强化学习(MARL)为一组人工智能代理提供了一个有原则的框架,使它们能够在人类专家水平上学习协作和/或竞争行为。多智能体学习环境本质上比单智能体学习解决了更复杂的问题,因为代理既与环境互动,也与其他代理互动。特别是,在MARL中,多个代理同时学习,导致在遇到的经验中产生自然的非平稳性,因此要求每个代理在其他代理策略可能发生较大变化的情况下调整其行为。本论文旨在从三个重要主题来解决多智能体学习中的非平稳性挑战:1)适应性,2)收敛性,3)状态空间。第一个主题解答了代理如何通过开发新的元学习框架来学习有效的适应策略,以应对其他代理不断变化的策略。第二个主题解答了代理如何适应并影响联合学习过程,使得基于新的博弈论解决方案概念,策略在学习结束时收敛到更理想的极限行为。最后,最后一个主题解答了如何基于知识共享和上下文特定抽象来减小状态空间大小,从而使学习复杂性受到非平稳性的影响较小。总之,本论文发展了理论和算法贡献,为上述关于非平稳性的主题提供了有原则的解答。本论文中开发的算法在多智能体基准领域的多样化套件中展示了其有效性,包括混合激励、竞争和合作环境的全谱。