多年来,有几个游戏被研究人员作为人工智能(AI)研究领域的关键挑战来推广,其最终目标是在这些游戏中击败最好的人类玩家。深度学习的最新发展使计算机能够为许多游戏学习强大的策略,而以前的方法在这方面却有所欠缺。然而,最复杂的游戏,如实时战略(RTS)游戏《星际争霸》(Blizzard Entertainment, 1998),仍然没有被人工智能所掌握。我们确定了自适应的三个属性,我们认为这是用人工智能完全掌握最难的游戏所需要的。这些属性是 (1)游戏内自适应:在游戏内适应对手策略的能力,(2)游戏间自适应:在游戏间智能地转换策略的能力,以及(3)通用性:对许多不同的,而且很可能是未见过的变化(如不同等级)进行概括的能力。我们分析了最先进的游戏算法在适应性方面的缺点,并提出了针对每个属性的新算法方法。其中一些方法还试图克服在奖励稀少的游戏中学习适应性策略的困难。本论文的主要贡献是 (a) 在《星际争霸》中执行在线自适应构建顺序规划的持续进化规划算法,(b) 在《星际争霸》中的游戏内自适应构建顺序规划的模仿学习方法,产生了第一个(据我们所知)基于神经网络的机器人,可以玩完整个游戏,(c) 从演示中学习行为重排的新型模仿学习方法,(d) 一种用于强化学习的自动奖励塑造技术,该技术根据预先定义的事件的时间稀有性自动分配反馈值,作为一种课程学习和正则化技术的形式,在奖励稀少的游戏中避免过度适应的行为,(e) 一个新的强化学习框架,它结合了程序性内容生成,每集产生新的训练水平,随着智能体的改进,难度逐渐增加,这被证明可以克服稀疏的奖励,并增加学习策略的通用性,(f) 一种评估人类和人工智能之间游戏竞赛公平性的实用方法,进一步强调了适应的重要性,以及(g) 一个新的人工智能挑战和竞赛,是基于棋盘游戏,它比围棋复杂得多,需要高水平的通用性。这些贡献为玩复杂游戏的人工智能挑战带来了一个新的视角,其重点在于适应。我们相信这一观点对于实现强大而稳健的游戏AI至关重要。我们的贡献有可能对游戏之外的许多重要的现实世界问题产生影响,例如在不断变化的环境中的机器人任务,以及需要高度适应性的复杂互动。