启元世界“星际指挥官”3:0 战胜黄金级选手 &&《工作机会》

2019 年 9 月 29 日 深度强化学习实验室
深度强化学习报道

来源:启元世界

编辑:DeepRL

“星指”养成史

在决策复杂度最高、控制单位最多的硬核游戏星际争霸II上,过去2年我们见证了启元世界“星指” (星际指挥官StarCraft Commander)的成长过程,从蹒跚学步到渐渐学会一些基本操作,到完整运营、发展科技、进行战役战术博弈。从一开始的惨败给内置新手级别电脑到完虐“调参工程师”们,终于迎来毕业小考。


9月22日,“星指”开始首次人机挑战赛,并以3:0战胜了公开报名的黄金级选手。


“星指”选择了最具挑战的人族作为出生种族(人族的建筑,操作和风格等对AI学习难度更高)。在三盘TVT(人族对人族)的比赛中,“星指”获得全胜并且展现出了多变的战术策略。


星指精彩比赛片段(TVT)


附加赛: 除了TVT,我们也实验了最新训练的TVZ模型(人族对虫族)。“星指”展现了全新的战术打法和类人的操作风格。

技术挑战

在上一篇文章中【硬核AI】启元星际指挥官9月开始挑战职业玩家之路,我们介绍了星际争霸研究的意义和挑战,今天我们将更深入的讨论相关技术问题。从技术角度上讲,星际这个研究平台可以说是集大成者,因为它融合了各大领域的关键研究问题:

  • 视觉层:  对星际mini-map, camera view的理解,地图,地形,地图上单位和关键信号的自动抽取和粒度分析 

  • 语义层: 对星际单位的特征学习和表达,不同单位之间的关联和相互作用 (星际可控制单位数量可达几百个) 

  • 序列决策: 从长序列输入到长序列输出的决策问题 (平均动作序列几千次) 

  • 多任务学习: 每个frame都涉及到多任务决策,这些任务既相辅相成又有不同特点,需要做好sharing和独立学习的均衡。Multi-task learning现在也是自动驾驶中至关重要的问题。 

  • 非完全信息决策: 由于战争迷雾的存在,需要根据历史信息和探路信息对不可见信息进行预测和建模。 

  • 强化学习延迟奖励(reward attribution):强化学习的核心信号是奖励reward,长序列延迟奖励的环境大大提高了学习难度。

  •  Exploration探索: 探索一直是强化学习研究的难点,星际的决策空间巨大,需要更高效的探索方法。 

  • 多样化: 和围棋不同,星际这种即时战略游戏没有必胜策略,需要agent学会多样化的战术策略。 

  • 评估Gap: 由于星际策略经常出现互相克制的特点,agent评估本身就很困难,reward高低和 agent强弱经常没有很直接的关系。对战bot的强弱和对战人类选手也大相径庭。 

  • 学习效率:  在有限算力情况下,以上各大难点对数据使用率和学习效率提出了很高的要求。

算法

在局部场景上,我们通过深度强化学习技术从零数据开始训练Agent获得了较好的效果 。深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」在星际完整游戏上,我们继续采用以深度强化学习为核心的技术路线, 没有附加任何人工规则。同时我们也采用了星际replay数据来提高学习和探索效率。在复杂决策问题上,结合先验知识和强化学习已经成为趋势,在各个领域都有成功案例。

训练平台

如何将有限的资源最大化利用,是启元决策智能平台在“星指”中最大的挑战。我们重写了TensorFlow关键模块,将训练速度提升了2倍多。另外,数百块GPU协同训练,参数同步效率会成为系统瓶颈。我们通过优化worker间的网络传输,将单轮的训练时间缩短为原来的一半。最后,Distributed Trainer + Distributed Sampler + Predictor Service的先进平台架构将系统计算密度推向极致,可以将计算任务合理的分配到相应计算资源上,集群资源利用率稳定在85%以上。

What’s Next

 最近AlphaStar在星际天梯上的视频也引发了很多讨论,比如天马行空的建筑风格,打法的单 一,容易被exploit找到漏洞等等。我们在训练过程中也确实观察到类似槽点和agent的不足。同时也给了我们很多启发和思考,特别是在策略多样化我们有些想法和计划会在下一阶段进行更多尝试。


欢迎有志挑战以上前沿算法,大规模系统和工程难题的同学加入我们一起打游戏,完成“星指”养成之旅!同时我们将在近期挑战更强对手,欢迎钻石及大师级选手踊跃报名。


联系邮箱:hr@inspirai.com




公司简介: 启元世界(inspir.ai)是由前阿里、NetflixIBM的科学家和高管发起,包括香港科大、清华、北大、浙大等多位名牌大学的博士联合创立,专注于认知决策智能的AI公司。启元世界的愿景是打造决策智能、构建平行世界、激发人类潜能,团队核心能力以深度学习、强化学习、超大规模并行计算为基础,拥有安全、机器人、互联网等领域的成功经验,在NIPS等国内外一流竞赛中屡屡夺冠。公司获得高榕资本等一流投资机构的青睐,目前已完成两轮融资。我们诚挚邀请有梦想、有激情的同学加入,一起共创辉煌!



招 聘 职 位

1、研究科学家

    工作地:北京/杭州

职位描述:

◆ 负责强化学习和深度学习的前沿算法研究,推动和保持算法在业界的领先;

◆ 针对具体项目的算法设计,实现和调优,推进前沿算法的应用落地。

职位要求:

◆ 计算机、统计、数学、相关专业硕士及以上学位 ;
◆ 丰富的研究经验,在著名国际会议或期刊上发表过论文 (NIPS, ICML, ICLR, KDD等);
◆ 具有扎实的机器学习理论基础,和在强化学习、深度学习方面的实践经验;
◆ 熟悉TensorFlow/ PyTorch/ MXNet/ Caffe至少一种深度学习框架;
◆ 熟练掌握Python/C++/Java中至少一门编程语言;
◆ 好奇心强,有责任心,富有团队合作精神。



2、算法工程师

 工作地:北京/杭州

职位描述:

◆ 负责强化学习和深度学习的前沿算法的实现和优化;
◆ 负责前沿算法的项目落地,从设计,实现,调优,交付的端对端工作。


职位要求:

◆ 计算机、数学、物理、统计等相关专业大学本科及以上学历;
◆ 较强的算法设计和实现能力,在Kaggle、天池、ACM等国内外竞赛中获奖者优先;
◆ 能够熟练使用Python编程,有C++或者Java编程经验者优先;
◆ 有机器学习基础理论知识和实践经验,熟悉使用TensorFlow、MXNet、Caffe等类似的深度学习框架者优先;
◆ 良好的沟通能力,有责任心,富有团队合作精神。



3、学习平台工程师

  工作地:北京/杭州

职位描述:

◆ 负责公司机器学习平台的架构设计、实现和优化工作。

职位要求:

◆ 计算机相关专业本科及以上学历,有2年以上大系统研发经验者优先;

◆ 熟练应用C/C++、Python等语言,具有良好的编程习惯,熟悉多线程编程,内存管理,设计模式和Linux/Unix开发环境;

◆ 掌握分布式系统相关知识,或熟悉GPU硬件架构和CUDA编程,有互联网系统架构经验和大系统研发和调优经验者优先;

◆ 良好的沟通能力,有责任心,自我驱动。


有意愿的伙伴,请联系以下邮箱!

官网   www.inspirai.com

 HR邮箱:  hr@inspirai.com

 


深度强化学习实验室

算法、框架、资料、前沿信息等


GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request


往期精彩回顾

第1篇:《深度强化学习》面试题汇总

第2篇:《深度强化学习》招聘汇总(13家企业)

第3篇:解决强化学习反馈稀疏问题之HER方法原理及代码实现

第4篇:"DeepRacer" ——顶级深度强化学习挑战赛

第5篇:AI Paper | 几个实用工具推荐

第6篇:AI领域:如何做优秀研究并写高水平论文?

第7篇: DeepMind默默开源三大新框架,深度强化学习落地希望再现!
第8篇: 【重磅】61篇NIPS2019深度强化学习论文及部分解读
第9篇: 深度强化学习框架-OpenSpiel(DeepMind开源28种DRL环境+24种DRL算法实现)
第10篇: 基于模块化和快速原型设计的Huskarl深度强化学习框架
第11篇: DRL在Unity自行车环境中配置与实践
第12篇: 解读72篇DeepMind深度强化学习论文
第13篇: 《AutoML》:一份自动化调参的指导
第14篇: ReinforceJS库(动态展示DP、TD、DQN算法运行过程)
第15篇: 过去10年NIPS顶会强化学习论文(100多篇)汇总(2008-2018年)
第16篇: ICML2019-深度强化学习文章汇总
第17篇: DRL在阿里巴巴推荐系统的应用---《深度强化学习在阿里巴巴的技术演进与业务创新》
第18篇: 深度强化学习十大原则
第19篇: “超参数”与“网络结构”自动化设置方法---DeepHyper
第20篇: 深度强化学习的加速方法
第21篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析


登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
2019腾讯广告算法大赛方案分享(冠军)
大数据技术
12+阅读 · 2019年8月26日
刚刚,阿里开源了一个重磅AI炸弹!
前端大全
5+阅读 · 2018年2月6日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
Arxiv
7+阅读 · 2018年5月23日
VIP会员
Top
微信扫码咨询专知VIP会员