星际虫王IA退役2年搞AI，现在自叹不如了

会员服务 ·

星际虫王IA退役2年搞AI，现在自叹不如了

2022 年 6 月 13 日 量子位

金磊发自凹非寺
量子位 | 公众号 QbitAI

这年头，直播讲AI，真算不上什么新鲜事。

但要是连职业电竞选手，都开播主讲呢？

没开玩笑，是真事。

这位讲AI的主播，就是那个《星际争霸2》的虫王——IA。

然后，他讲AI的画风是这样的：

但有一说一，讲AI毕竟还是一件严谨的事儿。

IA的这波操作，怕不是在搞什么噱头吧？

我们不妨一同来扒一扒。

职业电竞玩家，为什么要做这么一件事？

其实，IA能够开直播讲AI，并不是没有“资本”。

首先他本身就是理工科背景出身，毕业于华中科技大学。

而且早在2年前，IA就从电竞圈，一个超大跨步迈进了AI圈——以游戏顾问的身份加入商汤集团X实验室，而如今，他已经成为了一个全职的决策AI研究员。

时隔两年，IA这一次在直播间的亮相，并不是简单地陈述“自身历练”过程。

而是直接搬出了一系列成果：

自己训练出来的AI已经落地，可以挑战《星际争霸2》复杂的场景，更可以直接对战顶级水平玩家了！

相关训练平台、针对星际2环境的训练代码已经开源了！

千亿算力训练出的职业级AI模型也可以免费访问！这也是目前开源界能接触到实力最强的星际2 AI模型！

至于为什么要搞这么一件事，IA阐述了自己的理由：

完成未竟之志。

从IA在《星际争霸2》的职业生涯来看，他的巅峰是中国的冠军。

但很遗憾的是，IA并没有实现问鼎世界冠军的梦想。

而通过训练AI智能体，让它能够越发地向自己的实力靠拢，打造另一个“AIIA”，甚至是能够做到超越自己。

或许，这也是一种实现自我理想的方式。

不仅如此，在实现梦想之上，IA在更早的是时候也曾透露过他对电竞AI的希冀：

我希望做到的是从AI模仿人类出发，再到人类去模仿它；我希望AI真正拓展人类的认知，拓宽人类的想象力。

从结果上来看，现如今IA确实离这样的梦想更近了一步。

这时你会问了，之前不是经常有“AI在《星际争霸2》中战胜人类”的消息吗？

确实不假。

但在IA看来，在《星际争霸2》中AI并没有完全战胜人类：

目前还没有AI，能够在《星际争霸2》中完胜人类最强的选手。

而想让AI完胜人类，还有两方面的问题亟待解决。

第一就是种族的问题。

从上面的天梯测试图中不难看出，同样的AI在玩虫族时候的表现是最弱的；但虫族在人类玩家手上，那可是强得一批。

原因在于虫族是一个被动防守的种族，这就体现到了AI随机应变能力方面的不足。

第二就是最优策略的问题。

从现在人和AI对战的事实情况来看，只要人类跟AI过上几招，很快就能找到它的“套路”，然后对其进行击破。

因此，AI通过训练找到的最优策略，很显然并不是最优解。

既然问题和困难如此重重，IA训练出来的AI又达到了怎样的水平呢？

DI-star，了解一下。

这是专门为《星际争霸2》开发的大规模游戏AI分布式训练平台。

目前，DI-star已经在虫族上达到了宗师级别（Grandmaster）水平。

话不多说，来看下IA在直播间放出的结果。

例如在与台湾省职业选手Rex的对战过程中，DI-star靠精细的微操建立前期优势。

而与前世界冠军Scarlett的对战中，DI-star能使用出女王前压这样的人类不常见战术出奇制胜。

不难看出，DI-star已然在对战过程中的决策层面上开始大放异彩。

那么接下来的一个问题就是：

DI-star是怎么炼成的？

IA在直播过程中，也没有对这个问题做任何遮掩，而是直接将重要的步骤“抛”了出来。

从整体来看，主要分为两个过程。

监督学习和强化学习。

首先，就是监督学习。

时间拨回到2020年年初，当DI-star项目正式开始启动时，团队总共也只有三四个人，而IA正式在这个时间以星际2游戏顾问的身份加入商汤。

体验过星际2的玩家都知道，每一场对决都需要经历“采集资源”、“生产单位”和“战斗”的过程。

而三者之间又环环相扣，需得是有足够的智谋，才能做到“运筹帷幄，决胜千里”。

起初，他们经历了一个非常痛苦的解决bug过程，用团队自己的话来描述，就是“几乎训练不出来任何哪怕有正常操作的AI”。

所以对于DI-star来说，先要做的就是需要去学习，反复观摩人类的高质量对战录像。

为此，商汤X实验室共用到了16万场ZVZ（虫族对虫族）的录像，版本跨度为4.8.2到4.9.3。

2020年7月，团队的AI终于迎来了与人类的首胜，但对手也只是一位刚学习星际2的研究员。

但若仅仅是这般“蹒跚学步”，DI-star的分数也只是能达到3000多分，离战胜人类顶级玩家的目标遥之甚远。

因此，商汤X实验室认为，关键的第二个过程就是强化学习。

在他们看来：

AI通过监督学习有了基础学习能力之后，需要通过互相之间的大量对战，提升自己的水平。

而在经过大约1亿局的对战后，到了2021年的6月份，DI-star第一次战胜了IA自己。

在接下来的时间里，IA就带着“AI版的自己”，边训练边寻找各大人类国手玩家切磋较量。

于是，就这么一步一步，DI-star最终拥有了能够挑战世界级选手的实力。

整个过程下来，在看着DI-star一点一滴“成长”的过程中，团队也有自己的经验总结：

星际的整个状态空间太大，AI在训练过程中，有很多的局面都是没经历过的，在这些罕见局面就会出现不会应对的情况，所以在与AI对战的过程中，只要你打的天马行空、不按套路出牌就行了。

因此，也可以发现电竞AI研究的难点和重点，一方面是增强AI的泛化能力，做到像人类一样抽象地思考问题；另一方面是希望能够超越人类的认知，做出比人类更优的决策。

但除此之外，这个过程中的两个关键数据还需被放大关注——

“16万场录像”和“1亿局对战”。

单是从数字上就能体现出AI训练所需要的资源和时间之大了。

但IA却在直播说：

达到这样的水平，DI-star相比其它模型，所需要的时间和资源反倒会更少。

而之所以能解锁这样的技能，是因为在DI-star之下，有一个十分强劲的“动力”系统，源源不断地输出能量——SenseCore AI大装置。

它可以说是商汤引擎的底层架构了，可以类比为整个引擎夯实有力的地基。

具体而言，先从算力角度来看，商汤通过结合AI芯片以及AI传感器，构建了亚洲最大的人工智能智算中心（AIDC）。

这个AIDC预计能够产生每秒3.74百亿亿次浮点运算的总算力，相当于一天处理时长达到23600万年！

除此之外，从平台角度来看，AI大装置打通了从数据处理、模型生产、模型训练、高性能推理运算，以及模型部署等等各个环节。

而且不同于其它厂商采用开源工具，商汤这“一整套”都是自研的，具备更强的适配性，更利于模型的部署和应用。

至此，DI-star为何能够快、准、狠地被“调教”出来，就有了清晰的眉目。

显然，在商汤的眼里，决策智能是非常重要的。

至于原因，从商汤近几年的发展历程变化中，就可以得到清晰的答案。

决策智能——AI行业的下一代增长动力

过去几年时间中，商汤在计算机视觉的感知层面做了大量的技术积累，赋能了诸如传统安防、金融、内容鉴别与生产等诸多领域。通过感知能力，解析了大部分的图片和视频，一定程度上提高了行业的智能化和自动化程度。

但随着感知的能力越来越强，信息的维度越来越高，这就为运营、控制、决策类的问题的提升带来了更多的可能性，但是要求也越来越高。

例如自动驾驶行为控制、开放场景的资源运筹与调度、城市级交通的信号灯控制、车辆的调度和管理、封闭空间人流的优化、大规模活动时人力的调度等等。

而在这种情况，决策型AI便起到了关键作用。正如商汤智慧决策与游戏（ADG）事业部总经理兼高级研究总监刘宇曾提到的观点：

无论从技术的发展，还是从市场和消费者的需求来讲，AI不仅要“能听懂看懂”这个世界，更要有自己的“决策能力和想法”。而在诸如游戏、资源调度、城市管理等部分开放决策类问题上AI已经超越了人，甚至专家的能力，需要决策型的AI提供相关辅助，从而走通最终的价值闭环。

事实上，决策型AI已经在互联网行业中证明是具备显著的商业价值，例如它能够在数据积累成熟的银行、零售等行业率先落地，完成职业增强或替代从而实现降本增效。

而商汤ADG事业部也在利用自身研发优势，积极布局面向企业的通用决策任务SaaS平台、智慧运营服务等产品。

由此可见，从传统AI的感知智能，向更具挑战和难度的决策智能跃迁，已然成为科研、产业等领域发展的一个大趋势。

这也就不难理解商汤为何要发力于此了。

One More Thing

在这次的直播中，IA还为网友们送上了一波“福利”——DI-star项目已开源！

而且是个人PC、1060TI显卡就能带得动的那种哦。

不仅如此，DI-star所属的决策智能平台OpenDILab也对大家进行了开源。

感兴趣的朋友们可以戳下方链接去试试了（有保姆级教程哦）~

DI-star开源地址：

https://github.com/opendilab/DI-star

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

最优

关注 0

《基于强化学习开发战斗行为》美国海军研究生院

专知会员服务

97+阅读 · 2022年6月27日

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

智源发布《人工智能的认知神经基础白皮书》，110页pdf阐述搭建脑科学与人工智能的桥梁

专知会员服务

101+阅读 · 2022年1月26日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

唐杉博士：人工智能芯片发展及挑战

专知会员服务

48+阅读 · 2021年12月4日

什么是自然-XAI？ICML2021这份《可解释人工智能-自然语言解释》教程

专知会员服务

41+阅读 · 2021年7月25日

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

面向 AI 的数据管理技术综述

专知会员服务

47+阅读 · 2020年8月20日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

【MLA 2019】在微软小冰做好玩儿的研究，微软小冰首席科学家宋睿华

专知会员服务

22+阅读 · 2019年11月6日

AI帮写代码67元/月！

夕小瑶的卖萌屋

0+阅读 · 2022年6月27日

可达鸭为什么这么火？

ZEALER订阅号

0+阅读 · 2022年5月23日

“AI不会凉！” 她要扛起中国AI落地的大旗

夕小瑶的卖萌屋

0+阅读 · 2022年5月23日

语料没选对，GPT-3训练出微波炉「杀人狂」AI

新智元

0+阅读 · 2022年4月21日

这个AI女友会用声音调情了！害羞、挑逗样样都会，还从不生气

新智元

0+阅读 · 2022年2月18日

周礼栋：成熟的AI不再只是谈“颠覆”！

THU数据派

0+阅读 · 2022年1月21日

周礼栋：成熟的AI不再只是谈“颠覆”

微软研究院AI头条

0+阅读 · 2022年1月13日

和世界上另一个你对话是种什么体验？全球首位AI人类观察者诞生

THU数据派

0+阅读 · 2021年9月26日

强大的AI机器人，为什么连叠毛巾这种小事都做不好？

微信AI

0+阅读 · 2020年12月31日

微信攻AI，有软有硬

微信AI

0+阅读 · 2019年9月2日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

单发多收天线雷达低空目标检测方法研究

国家自然科学基金

9+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

心理预期与认知方式对负面情绪的交互调节

国家自然科学基金

4+阅读 · 2013年12月31日

基于计算成像的空间近距离弱小目标检测技术

国家自然科学基金

0+阅读 · 2013年12月31日

探月飞船跳跃式返回再入预测-校正制导方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

自我加工优势效应的神经机制

国家自然科学基金

0+阅读 · 2011年12月31日

网球运动员知觉预测特征及神经机制

国家自然科学基金

0+阅读 · 2011年12月31日

中国民航空中交通管制员心理复原力的模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

On the Security of IO-Link Wireless Communication in the Safety Domain

Arxiv

0+阅读 · 2022年7月28日

A Coalgebraic Approach to Dualities for Neighborhood Frames

Arxiv

0+阅读 · 2022年7月27日

TracInAD: Measuring Influence for Anomaly Detection

Arxiv

0+阅读 · 2022年7月27日

An Explainable Decision Support System for Predictive Process Analytics

Arxiv

0+阅读 · 2022年7月26日

Processes Parametrised by an Algebraic Theory

Arxiv

0+阅读 · 2022年7月25日

Interpretable Graph Neural Networks for Connectome-Based Brain Disorder Analysis

Arxiv

0+阅读 · 2022年7月23日

Learning Latent Representations to Influence Multi-Agent Interaction

Arxiv

11+阅读 · 2020年11月12日

A Survey of the State of Explainable AI for Natural Language Processing

Arxiv

26+阅读 · 2020年10月1日

Machine Reasoning Explainability

Arxiv

14+阅读 · 2020年9月1日

Directions for Explainable Knowledge-Enabled Systems

Arxiv

26+阅读 · 2020年3月17日

VIP会员