启元AI两局2:0战胜中国星际争霸冠军,仅用顶级科技巨头1%算力

2020 年 6 月 24 日 新智元



  新智元报道  

编辑:梦佳、白峰

【新智元导读】距离AlphaGo战胜世界第一柯洁已经3年了,人类又一次败给了AI!在刚刚举行的启元星际AI顶级职业选手挑战赛上,启元AI「星际指挥官」两场2:0完胜人类顶尖选手《星际争霸I/II》全国冠军黄慧明(TooDming),和中国星际最强人族选手李培楠(TIME)。
‍‍ ‍‍


AlphaGo战胜世界排名第一的柯洁已经过去3年了,这一回人类 又双叒 一次败在了AI脚下!

6月21日的2020北京智源大会上,启元AI「星际指挥官」两场2:0完胜人类选手《星际争霸I/II》全国冠军黄慧明(TooDming),以及中国星际最强人族选手、黄金总决赛三连冠选手李培楠(TIME)。

这是中国星际AI首次在公开比赛中战胜国内顶级职业选手!


启元星际AI顶级职业选手挑战赛现场
 

赛后,DeepMind AlphaStar团队发来祝贺,并将就技术创新进行探讨。


AI星际指挥官的出色表现,再次证明了以深度强化学习为代表的通用人工智能技术未来还会呈现指数级发展。

AI:一个情绪稳定的智能体,史上最强00后人族选手又惊又喜


这次AI战胜的两位人类高手是什么来头呢?

今年32岁的《星际争霸I/II》全国冠军虫族选手黄慧明来自福建,十多年前他还默默无闻,因为一套美国科幻片,给自己取了个网名叫做TooDming。

此后多年在海内外的电竞大赛中荣获共11项冠军,包括2013NSL冠军,2016年GPL黄金联赛第二季冠军等等。 最高成就是《星际争霸I/II》全国总冠军。
 
他还是粉丝口中的明皇,土豆明。

    
另一位选手李培楠(TIME)是个00后,出生于2000年6月,粉丝亲切称呼其为李少,现效力于KaiZiGaming电子竞技俱乐部。

自古英雄出少年。这位20岁的少年是首位晋级世界锦标赛全球总决赛的中国大陆选手,他是中国《星际争霸II》一颗闪亮的明星,打法激进,风格鲜明,被誉为中国最强人族!


实力源于热爱,李少14岁的时候就开始接触《星际2》,之后一发不可收拾。

在去年的WSC秋季赛后,李培楠以非韩区第五名的联赛总分打进年终总决赛,成为了《星际2》项目第一个凭实力在国际赛事上占据一席之地的中国大陆选手。网友评论意义好比2002年国足打进世界杯。

 
两位顶级高手赛后谈到了和AI切磋的感受。

最开始,因为知道对手是AI,黄慧明采取了一些保守策略。但没想到,AI多变的策略让两位高手深感压力山大。
       

在人民电竞的采访中,黄慧明表示,「你并不能感受到AI的任何情绪,但是它给我带来的压迫感和多线骚扰,让我觉得非常烦躁。」
 
第一局,启元星际AI采用「维京」战术,出奇制胜
 
在对战TIME的第一局,启元星际AI采用了大量维京战机配合少量坦克的新战术,利用维京的机动性奇袭TIME基地,这是人类很少用的战术。
 
TIME对此战术不太适应,陷入劣势随后丢掉第一局。

维京换家打乱对手节奏

 
第二局,AI多线空投打出缺口,TIME强力防守
 
在与TIME对战的第二局, 启元星际AI已经损失了大量的运输机和兵,但是却没有丝毫的「情绪波动」。 AI采用多线协同进攻,TIME也展现出了强大的防守能力,精彩地应对了启元星际AI的多轮进攻。
 
这一回,两位高手差一点儿就赢了AI,但因为经济劣势,最终惜败。
 
「第二局主要是前期的两矿开局和中期的多线操作。多线确实把我打得有点懵,就算是16年的世界冠军ByuN来了也就这样了。总体来说让人又惊讶又惊喜,启元居然能做出这么厉害的AI。」李培楠(TIME)赛后采访中表示。
 

多线空投打出缺口
 
选手赛后表示,在和启元星际的比赛中,见到了维京推进等新的打法和策略。虽然是基于暴雪提供的AI专用接口研发,且APM略高于人类,但这些打法依然给了大家很多新的启发。
 
AI和人类相比,主要优势在于不断有新的打法和策略,同时发挥稳定,不受干扰,堪称一个极其冷静且双商极高的人类。

未来,摸清了AI套路,人类高手也可以反其道而行之。和AI对战也可以让人类高手不断精进水平,吸取AI的思维方式。

点击文末「阅读原文」查看精彩比赛回放。


星际争霸复杂度超过Dota2和德州扑克,成智能体最佳研究平台


为什么选择星际争霸作为训练AI的试验田呢?
 
回顾近年来人机对战的历史,2016年AlphaGo 围棋1对1是完全信息决策,2017年德州扑克1对1是非完全信息决策,2018年OpenAI DOTA2是 5对5多智能体协作。
 
而《星际争霸》是一款即时战略游戏,游戏规则就是造农民、采矿、造建筑、造兵、升级科技,最后出兵拆掉对方的建筑。虽然也属于零和博弈,但《星际争霸》跟其他几个游戏还是有一定差异,《星际争霸》因为战争迷雾的影响有些对手的信息是不知晓的,输入输出状态更多,还存在大量的先验信息等。 游戏本身具有动态、复杂、层次化的特点,需要智能体做长程决策。

               

这次赛事是全国首次现场直播AI与人类顶级职业选手的对战,也是启元世界以《星际争霸II》作为研究平台打造的智能体「星际指挥官」首次以实时对战的方式公开亮相。
 
过去几十年来,人工智能在人类游戏中的表现一直是其发展程度的重要标志,《星际争霸》可以说是人工智能的「巅峰挑战」。不仅因为《星际争霸》研究难度大,更关键地是,以《星际争霸》作为平台进行智能体研究,更接近各个行业真实的应用场景。
       

无论是DeepMind、Facebook还是启元世界,都以《星际争霸》作为研究重心。
 
2018年11月,Facebook AI 团队的《星际争霸》人工智能CherryPi,取得了2018星际AI大赛的亚军,输给了依靠规则的三星,纯人工智能并没有占据上风。
 
2019年1月,DeepMind 的《星际争霸》人工智能AlphaStar 与人类职业玩家开展了现场对决,多次战胜人类选手,但也被人类玩家找到破绽扳回一局。
        DeepMind AlphaStar和人类对战
 
此前,人类玩家发现了一个漏洞,放两个单位偷袭,AI 大部队就回家来救援,人类撤走,AI也走,这个操作重复了好几次,AI 也没有学会放几个兵留守,而人类则不会犯同样的错误。说明 AI无法在一局之内完成进化,但是算力提高的话,智能体就有可能实现实时进化,及时找到应对策略。

启元星际AI仅用顶尖科技公司1%的算力达到人类顶级职业选手水平
 
启元世界自 2017 年 8 月创立以来,致力于创造智能体产品,并把智能体带入各行各业,提升产业效能和生活体验。
 
公司团队核心成员来自 BAT、Netflix、IBM、香港科大、伯克利等国内外知名高科技企业和一流学府,屡获 NeurIPS、CVPR 等国际竞赛大奖。
 
自从2018年4月在第38届ACM全球总决赛中初次亮相并发布AI人机协作挑战赛以来,启元AI「星际指挥官」进步神速,2018年11月在局部战斗中从零学习、自我对抗达到人类高手水平。
 
2019年9月达到白金水平,3:0击败人类黄金级选手。2019年12月达到钻石级水平,并在人工智能顶级峰会NeurlPS上现场展示,引爆全场。

启元AI「星际指挥官」实时决策过程

此次启元星际AI 以两个2:0成绩战胜中国星际冠军,半年时间从钻石水平晋级为顶级职业选手水平,秘诀在于启元找到了一条自主研发的路线,通过小样本学习、训练平台的极致优化。
 
目前的启元星际AI已具备在复杂场景和信息不完全的条件下,进行信息提取和决策的能力,已自行发展出了数百种战术,其中多种战术都达到了职业水准。

启元如何实现算力优化?

 
为了实现1%算力条件下接近顶尖科技公司的同等水平,启元世界从工程和算法两个层面各进行了深层次的优化,通过乘数效应的叠加最终实现了看似不可能的奇迹。
 
在工程层面 ,启元世界打造了一个世界级的工程团队,通过独创的「数据生成—传输—消费」的一体化计算框架,相比传统机器学习框架和开源软件,在ATARI等标准测试中,智能体训练的数据吞吐率提升了10倍以上。
 
在算法层面 ,针对《星际争霸II》中非完全信息复杂博弈、超大决策动作空间、实时对抗等难点,启元世界自主研发的小样本学习算法,实现了仅用数千局数据即可训练出人类中等水平的智能体。其自主创新的智能体Commander神经网络结构,结合高效率的群体演化训练方法,可在有限的算力条件下,既能增强智能体的鲁棒性,又能实现智能体的快速进化。
 
在这片勇闯技术的「无人区」,启元积累了不下30项专利和软件著作权。  


「智能体训练云平台」发布,智能体激发人类探索未知

「星际指挥官」背后的秘密武器就是启元最新发布的智能体训练云平台。
 
正是通过智能体训练云平台,「星际指挥官」仅需几千局的小样本做启动,就能通过模仿高手、超越高手达到人类顶级选手水平,还能够以远超人类选手的成长速度不断迭代进化。
         启元发布「智能体训练云平台」
 
《星际争霸》仅仅是智能体训练云的一块「试验田」,启元的目标是通过智能体训练云平台帮助各行各业训练出自己的智能体,助力产业升级。
 
智能体训练云平台会提供方便的编程接口,供智能体开发人员调用高效的算法库、网络模型库及训练方法,快速开发构建自己的智能体。

同时,平台还会根据训练任务进行弹性算力调度,匹配智能体的推演和训练速度,实现高效率的超大规模并行训练。
 
目前,启元「智能体训练云平台」已在全国数十家商业组织和机构中得到广泛应用,覆盖了数字娱乐、公共科技、机器人等行业。

据报道,启元世界正在开发一款基于智能体的游戏, 每一个角色背后都是一个智能体,将在很大程度上提升玩家的游戏体验。

从钻石级水平到战胜人类顶级职业选手,「星际指挥官」仅仅用了半年时间,远超人类的进化速度,对于即将到来的智能体时代,让我们拭目以待!


参考链接:


https://www.zhihu.com/question/310195496
https://www.zhihu.com/question/49226809/answer/838335631



登录查看更多
0

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
109+阅读 · 2020年4月12日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
噩耗再次传来!华为,挺住!
FinTech前哨
4+阅读 · 2018年2月4日
【人工智能】谭铁牛院士:人工智能新动态
产业智能官
8+阅读 · 2018年1月5日
高二进清华,大二开公司,29岁登上福布斯亚洲领袖人物榜
人工智能机器人联盟
5+阅读 · 2017年11月18日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
4+阅读 · 2018年2月13日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
109+阅读 · 2020年4月12日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
Top
微信扫码咨询专知VIP会员