多年来,有几个游戏被研究人员作为人工智能(AI)研究领域的关键挑战来推广,其最终目标是在这些游戏中击败最好的人类玩家。深度学习的最新发展使计算机能够为许多游戏学习强大的策略,而以前的方法在这方面却有所欠缺。然而,最复杂的游戏,如实时战略(RTS)游戏《星际争霸》(Blizzard Entertainment, 1998),仍然没有被人工智能所掌握。我们确定了自适应的三个属性,我们认为这是用人工智能完全掌握最难的游戏所需要的。这些属性是 (1)游戏内自适应:在游戏内适应对手策略的能力,(2)游戏间自适应:在游戏间智能地转换策略的能力,以及(3)通用性:对许多不同的,而且很可能是未见过的变化(如不同等级)进行概括的能力。我们分析了最先进的游戏算法在适应性方面的缺点,并提出了针对每个属性的新算法方法。其中一些方法还试图克服在奖励稀少的游戏中学习适应性策略的困难。本论文的主要贡献是 (a) 在《星际争霸》中执行在线自适应构建顺序规划的持续进化规划算法,(b) 在《星际争霸》中的游戏内自适应构建顺序规划的模仿学习方法,产生了第一个(据我们所知)基于神经网络的机器人,可以玩完整个游戏,(c) 从演示中学习行为重排的新型模仿学习方法,(d) 一种用于强化学习的自动奖励塑造技术,该技术根据预先定义的事件的时间稀有性自动分配反馈值,作为一种课程学习和正则化技术的形式,在奖励稀少的游戏中避免过度适应的行为,(e) 一个新的强化学习框架,它结合了程序性内容生成,每集产生新的训练水平,随着智能体的改进,难度逐渐增加,这被证明可以克服稀疏的奖励,并增加学习策略的通用性,(f) 一种评估人类和人工智能之间游戏竞赛公平性的实用方法,进一步强调了适应的重要性,以及(g) 一个新的人工智能挑战和竞赛,是基于棋盘游戏,它比围棋复杂得多,需要高水平的通用性。这些贡献为玩复杂游戏的人工智能挑战带来了一个新的视角,其重点在于适应。我们相信这一观点对于实现强大而稳健的游戏AI至关重要。我们的贡献有可能对游戏之外的许多重要的现实世界问题产生影响,例如在不断变化的环境中的机器人任务,以及需要高度适应性的复杂互动。

成为VIP会员查看完整内容
62

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
43+阅读 · 2022年6月23日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【新书】分布式强化学习,280页pdf
专知
19+阅读 · 2021年12月19日
DeepMind:用PopArt进行多任务深度强化学习
论智
26+阅读 · 2018年9月14日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
43+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年1月23日
Arxiv
19+阅读 · 2022年11月8日
Arxiv
12+阅读 · 2021年7月26日
Arxiv
18+阅读 · 2021年3月16日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
43+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员