在《我的世界》中挖钻石有多难?这个NeurIPS挑战赛上,没有一个AI能在15min内完成

2021 年 12 月 11 日 量子位
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

从0开始在《我的世界》 (MineCraft)中挖出一块钻石,需要多长时间?

对于熟悉游戏的玩家来说,可能只需要几分钟的时间:

图源Youtube@ItzJhief

然而对于AI来说,15分钟内可能都挖不出1块钻石!

为了发掘AI的潜力,CMU、微软、DeepMind和OpenAI联手在顶会NeurIPS上举办了一个名叫MineRL的竞赛,要求参赛队伍在4天时间内,训练出一个能在15分钟内挖出钻石的AI“矿工”。

从往届表现来看,冠军连40分都拿不到,甚至举办方给出的AI Baselines只能达到2分左右的水准(满分100分)

今年,腾讯的绝悟AI却以76.97分的绝对优势一举夺魁,成功成为挑战赛历史上“挖矿最迅速”的AI。(不过,这几届的所有AI,都没能达成15min内挖出钻石这一挑战)

红色为绝悟AI分数

腾讯AI Lab是怎么拿到冠军的?

“AI矿工”为何难以挖出钻石?

之所以AI难以在竞赛中迅速挖出钻石,主要有两方面的原因。

一方面,《我的世界》游戏本身对AI有难度。

作为开放世界游戏,它的初始世界完全随机生成,而迅速合成钻石又需要比较复杂的步骤:既不能只用一种工具,也不能“一挖到底”。

通常来说,从0开始挖钻石最快的方法,分为7个步骤

第一步,玩家在空手进入《我的世界》中时,需要先找到树上的木头,用来获取木块:

第二步,将这些木块用来合成工作台:

第三步,在工作台上合成木镐,用来挖石砖:

第四步,获得石砖之后,需要合成一个石镐,用来快速挖铁矿:

第五步,为了将铁矿合成铁锭,还需要做一个熔炉来烧铁:

第六步,合成铁镐,用来挖出钻石:

第七步,寻找钻石,并用铁镐来挖出最终的钻石:

看到这里,就知道挖矿对于AI来说,已经很复杂了,不仅面临大量决策,还需要考虑时间问题。

另一方面,为了增加难度,举办方还特意给“AI矿工”们增加了不少限制。

禁止参赛者编写规则、游戏环境将背包信息与动作空间加密、不允许使用预训练模型、AI与环境交互不超过800万次、只能使用6核CPU+半张NVIDIA K80显卡训练4天……

当然,这样做是为了让各大高校的学生也有能力参与这次挑战赛,不至于出现硬件上“军备竞赛”的问题。

面对来自游戏和举办方的“挑战”,腾讯的绝悟AI是如何成为一名优秀矿工的?

如何让AI更快地挖矿?

首先,是整体训练策略的问题。

要想让AI在短时间、少算力的情况下变得会挖矿,首先就要改变训练策略。

这种情况下,不可能再用强化学习对AI进行整体训练。

因此,腾讯AI Lab将强化学习进行了“升级”,提出了一种基于分层强化学习 (Hierarchical Reinforcement Learning)的方法。

简单来说,就是将挖出钻石的过程像人一样分成几个具体的步骤,每个步骤都有一个“小目标”,让AI在完成一个目标后,能迅速地实施下一个目标。

然后,就是三个细节上的问题了。

其一,开放地图的理解问题。

由于表示学习在《我的世界》这样的3D场景中效果很差,腾讯AI Lab设计了一种基于动作感知的算法,来捕捉每个动作对环境的影响。

这种方法快速地提升了AI在开放世界中获取资源的速度。

其二,策略选择问题。

在游戏进行到一定阶段后,AI与人的思路会发生一些差异,仅凭人类数据训练,对AI的提升作用有限。

为此,腾讯AI Lab采用了自模仿学习的算法,从自己的实践中获得教训和经验,来降低进入危险区域、做出错误决策的概率。

其三,合成物品问题。

合成物品对于人类来说非常简单,然而AI却总是不容易合成它,成功率一开始甚至只有35%左右。

为此,腾讯AI Lab采用了动作序列一致性过滤(Consistency Filtering)+基于投票的集成学习(Ensemble Learning)方法,最终将合成物品的成功率提升到96%

最终在评分中,绝悟AI的分数达到了76.97分。

事实上,在游戏AI上一路向前的“绝悟”,已经历了数次进化。

从最初攻克Atari游戏开始,到后来的棋牌游戏AI“绝艺”,掌握一手围棋、象棋、麻将的绝活。

再到现在的策略协作型AI“绝悟”,从MOBA、FPS再到开放世界游戏《我的世界》,这个基于强化学习训练的智能体正在变得愈发复杂。

这次的《我的世界》版绝悟AI论文也已经放出,感兴趣的小伙伴可以冲了~

《我的世界》版绝悟AI论文地址:
https://arxiv.org/abs/2112.04907

参考链接:
[1]https://www.youtube.com/watch?v=CnKJgA93hyY
[2]https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition#team
[3]https://www.aicrowd.com/challenges/neurips-2021-minerl-diamond-competition/leaderboards?challenge_round_id=956

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

2021人工智能年度评选结果揭晓

伴随着产业数字化、智能化的浪潮,AI技术越来越像生活中的水电煤,以润物细无声的形态深入到大众生活的每一个角落。而背后重要的一股推助力,就来自于越来越成熟的平台化解决方案。

「2021年度人工智能最佳解决方案TOP10」榜单中,各个垂直领域的科技头部企业们,正在基于自身的平台实力,支持技术下沉,推助传统行业数智化升级,打造出了一条前沿技术能够被最广泛应用的通途:


p.s.点击图片/链接查看完整榜单:2021人工智能年度评选结果揭晓!AI落地最佳参考在此奉上



点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

神经信息处理系统年会(Annual Conference on Neural Information Processing Systems)的目的是促进有关神经信息处理系统生物学,技术,数学和理论方面的研究交流。核心重点是在同行会议上介绍和讨论的同行评审新颖研究,以及各自领域的领导人邀请的演讲。在周日的世博会上,我们的顶级行业赞助商将就具有学术意义的主题进行讲座,小组讨论,演示和研讨会。星期一是教程,涵盖了当前的问询,亲和力小组会议以及开幕式演讲和招待会的广泛背景。一般会议在星期二至星期四举行,包括演讲,海报和示范。 官网地址:http://dblp.uni-trier.de/db/conf/nips/
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
34+阅读 · 2022年1月31日
如何用latext画神经网络?这个PlotNeuralNet能帮到你
专知会员服务
25+阅读 · 2022年1月15日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
27+阅读 · 2021年7月3日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
20+阅读 · 2020年10月24日
历史最高分!腾讯「绝悟」AI 斩获 NeurIPS MineRL 竞赛冠军
国家自然科学基金
5+阅读 · 2015年7月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年7月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员