FPS游戏AI竞赛ViZDoom 2017结果公布：CMU和清华团队分别获冠亚军

2017 年 8 月 27 日 机器之心

机器之心报道

参与：李亚洲、蒋思源

近日，著名的 FPS 游戏毁灭战士（DOOM）人工智能竞赛宣布了比赛结果。Marvin 团队和 CMU 的 Terminators 团队分别获得 ViZDoom 2017 竞赛 Track 1 和 Track 2 任务的冠军。初次参赛的清华团队 TSAIL 以微弱劣势获得了 Track 2 任务的亚军。机器之心对本次的比赛结果进行了简介。

在正式介绍 Doom 游戏和 ViZDoom 竞赛前，我们先要明确这些智能体和大家常见的游戏内置 Bot 有本质的区别。因为星际争霸 2 和 Dota2 的报道中，很多读者并不太清楚使用 AI 开发的 Bot 和我们常见的游戏 Bot 有什么区别。我们常见的游戏内置 Bot 需要获取游戏内部数据来获得不对称优势，对于这些 Bot 来说，整个游戏所有的信息都是已知的。而基于强化学习开发的智能体在游戏中获得的信息和人是相同的，它们需要探索地图、计划发展以及判断画面出现的元素并进行及时的行动。

毁灭战士系列（Doom），是由 id Software 开发的第一人称射击电子游戏系列。本系列以一个宇宙军人为题材，他为了存活下来而与怪物及僵尸战斗。该游戏可以说是第一人称射击游戏的开拓者，AI 在游戏中只能获得画面信息而没有声音信息，因此这些基于强化学习的 Bot 获得的信息比人类还少。

ViZDoom 是基于 Doom 游戏的人工智能研究平台，该平台主要是为了研究能获取原始视觉信息的强化学习。该平台仅允许人工智能 Bot 使用屏幕图像信息进行对战。VizDoom 主要针对的是机器视觉学习，特别是深度强化学习的研究。该平台还提供了很多教程和文档以帮助研究者快速开发并测试自己的 Bot，教程和示例等请查看如下平台地址。

平台地址：http://vizdoom.cs.put.edu.pl/

2016 年发布的一篇论文《ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning》对该平台进行了详细介绍。

摘要：深度神经网络最近的发展已经产生了基于视觉的高效强化学习方法，这些方法从像素数据中学习并在 Atari 2600 多的游戏上获得了人类水准的性能。然而这些游戏因为只是使用非现实的 2D 环境和第三人称视角，所以它们并没有涉及到与现实类似的任务。现在，我们提出了一种新型的强化学习试验平台，该平台可用于从半现实（semi-realistic）的 3D 世界中利用第一人称视角获取原始的视觉信息而进行强化学习研究。该平台我们称之为 ViZDoom，即基于经典的第一人称射击游戏 Doom 的强化学习研究平台。该平台允许研究者在只使用屏幕 Buffer 的情况下开发 Bot 进行对战。ViZDoom 通过方便的的用户自定义脚本提供轻量、快速和高度定制化的训练。在试验中，我们尝试使用两种情景学习 Bot 而测试该环境：基本的移动、射击任务和更复杂的迷宫导航问题。对于这两种情景，我们使用深度卷积神经网络和 Q 学习进行反复的训练而获得了一个比较优秀的 Bot，该 Bot 展现出了类似人类的行为特征。该试验结果证实了 ViZDoom 作为 AI 研究平台的实用性，也表明了视觉强化学习在真实的 3D 第一人称视角环境下是可行的。

ViZDoom 2017 竞赛

一年一届的 ViZDoom 竞赛已经举办过一次，去年 Track 1 的冠军是田渊栋和吴育昕的 F1 团队（Facebook AI Research），Track 2 的冠军是 IntelAct 团队（Intel Labs）。但是去年的竞赛并没有达到较高的人类水准，所以该竞赛还有很大的提升空间。参赛团队可以使用 Python 或 Lua 语言提交一个智能体，该智能体将仅仅使用实时图像信息进行对战。

比赛任务分为 Track 1 和 Track 2。Track 1（已知地图上的限制性死亡竞赛）仅允许使用火箭炮对战，智能体可以收集医药箱和护甲。Track 2（未知地图上的无限制死亡竞赛）可以使用不同的武器，并且 Bot 初始只有手枪，它们需要收集不同的武器、医药箱和护甲。Track 2 可以在提供的五张地图上训练，而最后的测试地图是另外几张未知的。

在公布的比赛结果中，Track 1 任务前三名分别为 Marvin、Terminators、Axon 团队；Track 2 任务的前三名分别为 Terminators、TSAIL、InterACT 团队。

Track 1 比赛结果

Track 2 比赛结果，从结果来看第一、第二名相差 2 分

据官网的比赛团队介绍，Terminators 团队由卡耐基梅隆大学的 Devendra Singh Chaplot 与 Guillaume Lample 组成。

TSAIL团队由清华大学博士后 Dong Yan（导师为朱军教授）等成员组成。

TSAIL 团队成员

Track 2 任务分为十轮，以 Bot 的总击杀数减自杀数作为最终排名。据了解，清华大学组成的 TSAIL 团队第一次参加该竞赛并获得亚军，冠军由 CMU 的 Terminators 团队获得。两者十轮总击杀数均为 275，但清华大学的 TSAIL 团队的 Bot 有两次自杀记录，最终以两分之差屈居亚军。以比赛轮数记，TSAIL 在十轮比赛中的五轮都获得了第一，而 CMU 的 Terminators 获得了四轮比赛的第一。另外值得一提的是，TSAIL 团队 Bot 的死亡次数是所有参加 Track2 的 Bot 中最少的，仅为 186 次。与之相比，Terminators 的总死亡次数为 220 次，而去年 Track2 的冠军 IntelAct 则为 247 次。

2016 年的竞赛之后，CMU 团队与 Facebook 的田渊栋团队都发表了相应了的论文，对技术细节进行了介绍。期待本届比赛获胜团队之后公布的技术内容。