启元世界“星际指挥官”3:0 战胜黄金级选手 &&《工作机会》

2019 年 9 月 29 日 深度强化学习实验室

深度强化学习报道

来源：启元世界

编辑：DeepRL

“星指”养成史

在决策复杂度最高、控制单位最多的硬核游戏星际争霸II上，过去2年我们见证了启元世界“星指” (星际指挥官StarCraft Commander)的成长过程，从蹒跚学步到渐渐学会一些基本操作，到完整运营、发展科技、进行战役战术博弈。从一开始的惨败给内置新手级别电脑到完虐“调参工程师”们，终于迎来毕业小考。

9月22日，“星指”开始首次人机挑战赛，并以3:0战胜了公开报名的黄金级选手。

“星指”选择了最具挑战的人族作为出生种族(人族的建筑，操作和风格等对AI学习难度更高)。在三盘TVT(人族对人族)的比赛中，“星指”获得全胜并且展现出了多变的战术策略。

星指精彩比赛片段（TVT）

附加赛: 除了TVT，我们也实验了最新训练的TVZ模型(人族对虫族)。“星指”展现了全新的战术打法和类人的操作风格。

技术挑战

在上一篇文章中【硬核AI】启元星际指挥官9月开始挑战职业玩家之路，我们介绍了星际争霸研究的意义和挑战，今天我们将更深入的讨论相关技术问题。从技术角度上讲，星际这个研究平台可以说是集大成者，因为它融合了各大领域的关键研究问题:

视觉层: 对星际mini-map, camera view的理解，地图，地形，地图上单位和关键信号的自动抽取和粒度分析
语义层: 对星际单位的特征学习和表达，不同单位之间的关联和相互作用 (星际可控制单位数量可达几百个)
序列决策: 从长序列输入到长序列输出的决策问题 (平均动作序列几千次)
多任务学习: 每个frame都涉及到多任务决策，这些任务既相辅相成又有不同特点，需要做好sharing和独立学习的均衡。Multi-task learning现在也是自动驾驶中至关重要的问题。
非完全信息决策: 由于战争迷雾的存在，需要根据历史信息和探路信息对不可见信息进行预测和建模。
强化学习延迟奖励(reward attribution):强化学习的核心信号是奖励reward，长序列延迟奖励的环境大大提高了学习难度。
Exploration探索: 探索一直是强化学习研究的难点，星际的决策空间巨大，需要更高效的探索方法。
多样化: 和围棋不同，星际这种即时战略游戏没有必胜策略，需要agent学会多样化的战术策略。
评估Gap: 由于星际策略经常出现互相克制的特点，agent评估本身就很困难，reward高低和 agent强弱经常没有很直接的关系。对战bot的强弱和对战人类选手也大相径庭。
学习效率: 在有限算力情况下，以上各大难点对数据使用率和学习效率提出了很高的要求。

算法

在局部场景上，我们通过深度强化学习技术从零数据开始训练Agent获得了较好的效果。深度强化学习+启发人类的决策智能，专访一家有愿景的中国企业「启元世界」在星际完整游戏上，我们继续采用以深度强化学习为核心的技术路线，没有附加任何人工规则。同时我们也采用了星际replay数据来提高学习和探索效率。在复杂决策问题上，结合先验知识和强化学习已经成为趋势，在各个领域都有成功案例。

训练平台

如何将有限的资源最大化利用，是启元决策智能平台在“星指”中最大的挑战。我们重写了TensorFlow关键模块，将训练速度提升了2倍多。另外，数百块GPU协同训练，参数同步效率会成为系统瓶颈。我们通过优化worker间的网络传输，将单轮的训练时间缩短为原来的一半。最后，Distributed Trainer + Distributed Sampler + Predictor Service的先进平台架构将系统计算密度推向极致，可以将计算任务合理的分配到相应计算资源上，集群资源利用率稳定在85%以上。

What’s Next

最近AlphaStar在星际天梯上的视频也引发了很多讨论，比如天马行空的建筑风格，打法的单一，容易被exploit找到漏洞等等。我们在训练过程中也确实观察到类似槽点和agent的不足。同时也给了我们很多启发和思考，特别是在策略多样化我们有些想法和计划会在下一阶段进行更多尝试。

欢迎有志挑战以上前沿算法，大规模系统和工程难题的同学加入我们一起打游戏，完成“星指”养成之旅！同时我们将在近期挑战更强对手，欢迎钻石及大师级选手踊跃报名。

联系邮箱:hr@inspirai.com

公司简介：启元世界（inspir.ai）是由前阿里、Netflix、IBM的科学家和高管发起，包括香港科大、清华、北大、浙大等多位名牌大学的博士联合创立，专注于认知决策智能的AI公司。启元世界的愿景是“打造决策智能、构建平行世界、激发人类潜能”，团队核心能力以深度学习、强化学习、超大规模并行计算为基础，拥有安全、机器人、互联网等领域的成功经验，在NIPS等国内外一流竞赛中屡屡夺冠。公司获得高榕资本等一流投资机构的青睐，目前已完成两轮融资。我们诚挚邀请有梦想、有激情的同学加入，一起共创辉煌！

招聘职位

1、研究科学家

工作地：北京/杭州

职位描述：

◆ 负责强化学习和深度学习的前沿算法研究，推动和保持算法在业界的领先；

◆ 针对具体项目的算法设计，实现和调优，推进前沿算法的应用落地。

职位要求：

◆ 计算机、统计、数学、相关专业硕士及以上学位；
◆ 丰富的研究经验，在著名国际会议或期刊上发表过论文 (NIPS, ICML, ICLR, KDD等)；
◆ 具有扎实的机器学习理论基础，和在强化学习、深度学习方面的实践经验；
◆ 熟悉TensorFlow/ PyTorch/ MXNet/ Caffe至少一种深度学习框架；
◆ 熟练掌握Python／C++／Java中至少一门编程语言；
◆ 好奇心强，有责任心，富有团队合作精神。

2、算法工程师

工作地：北京/杭州

职位描述：

◆ 负责强化学习和深度学习的前沿算法的实现和优化；
◆ 负责前沿算法的项目落地，从设计，实现，调优，交付的端对端工作。

职位要求：

◆ 计算机、数学、物理、统计等相关专业大学本科及以上学历；
◆ 较强的算法设计和实现能力，在Kaggle、天池、ACM等国内外竞赛中获奖者优先；
◆ 能够熟练使用Python编程，有C++或者Java编程经验者优先；
◆ 有机器学习基础理论知识和实践经验，熟悉使用TensorFlow、MXNet、Caffe等类似的深度学习框架者优先；
◆ 良好的沟通能力，有责任心，富有团队合作精神。