李飞飞高徒新作！30万小时视频教会AI在《我的世界》里打败末影龙

会员服务 ·

李飞飞高徒新作！30万小时视频教会AI在《我的世界》里打败末影龙

2022 年 6 月 28 日 新智元

新智元报道

编辑：袁榭桃子

【新智元导读】近日，李飞飞高徒和团队研究人员提出了基于《我的世界》游戏新框架MineDojo，可以让AI自由探索程序生成的3D世界。

上周，OpenAI让AI看完海量视频后，学会玩《我的世界》。

在这之前，来自英伟达团队的研究人员还构建了一个游戏新框架MineDojo。

MineDojo包含了1000多种不同的开放式任务的模拟套件。

在这里，AI智能体可以自由探索程序生成的3D世界。

李飞飞在社交媒体上称赞了其得意门生，也是这篇论文的一作，Linxi Fan（范麟熙）的最新研究成果。

MineDojo：打开AI新世界

说来，这些AI究竟能做什么？

能在主世界、下界、末日中进行开放式探索，比如：

对战末影龙

寻找沙漠中的金字塔

还能探索海洋纪念碑

可以穿越不同地形，开采材料

能够制作并使用多样化工具，比如，用栅栏围住骆驼

种植小麦...

省事儿了！AI自学自励

目前为止，《我的世界》玩家已经有1亿多人，他们是构建大量数据的基础。

MineDojo从网上收集了海量数据：

73万YouTube视频，带有标记2.2亿个单词的英文脚本，这些视频总时长大概有30万个小时；
6735个Wiki页面，其中包括交互式的文本、图像、表格和图表；
34万条在「r/Minecraft」上的 Reddit帖子，还有660万条评论。

视频素材分两类：

逐步演示、配音详解的教程视频，研究团队用教程视频做出了大量程序基准。

不按特定任务与步骤进行的普通游戏录播视频，给AI智能体提供了内容更多元、素材更丰富的各种学习与训练信号。

由于不管是教程视频还是游戏录播视频，大多数视频库素材都是按时间轴配脚本的。如此就让AI智能体可以低障碍地将自然语言与像素级的图像数据对应，不用大量人工标注就能自行理解各种活动的自然语义对应物。

由于Reddit文本数据库中的内容结合了文字、图片、短视频片段，将精细调试的大语言模型在其中使用后，AI智能体就能获得大量特定的内化概念和复杂策略。

MineDojo现有基准任务库中包含3131个任务，其中有1572个可编程任务、1558个创造性任务、1个通关性任务。

可编程任务按固定步骤和任务目标完成，分四种：

1.生存：AI玩家在初始游戏环境中生存若干天

2.采集：发现、获取、培育、制造数百种材料和物体

3.科技树：按游戏进程目录解锁各种等级的工具与技能

4.基础战斗：AI玩家在游戏中打各种普通小怪，测试智能体反应灵活度和战斗技能

创造性任务就没有可编程任务的精细定义、自动完成的标准了，由AI智能体自由发挥。

通关任务的要求是让AI玩家「打败末影龙并获取龙蛋奖励」。这对人类新手玩家来说都是个游戏初期的里程碑成就。

对于AI智能体而言，这是个验收性任务，考验了AI智能体自行准备、探索、试错等等完成游戏的能力。

研究团队将所有任务都附带了自然语言叙述的提示，很多任务还有用GPT-3生成的逐步指南。

为了用强化学习训练AI智能体玩《我的世界》、完成必备的奖惩功能，研究团队自行开发了模型MineCLIP。

MineCLIP是在海量Youtube数据库上预训练的对比视频语言模型，利用大型预训练的视频语言模型作为学习奖励函数。

比较有特点的是，这个智能体可以解决各种用自由形式的语言指定的开放任务。

同时，它不需要任何人工设计的密集设计奖励。

其奖励效果在可编程任务上与人工编写的逐条奖励程序不相上下，在创造性任务上胜过了OpenAI的预训练CLIP模型。

MineCLIP模型也是MineDojo中AI将图像对应自然语言的核心组件，包含了文本编码器和图像编码器，参数1.5亿。

研究团队在论文中称MineCLIP模型的神经架构很类似CLIP4Clip，但比其多了两层图-文适应处理层。

研究团队在视频数据库中抽取了64万16秒短视频片段抽样，来训练这两层来对应图像和文字，效果可与人工判定的真实值媲美。

网友点评

一位网友称，OpenAI和英伟达基于《我的世界》做的研究方向有些不同。

并对这两项研究进行了对比。

OpenAI试图训练一个《我的世界》中的通才智能体，就像此前DeepMind训练星际争霸那样：

先通过模仿大量演示来学习，然后再通过精心化设计的奖励让智能体去进行强化学习。

问题是，智能体想要进行模仿学习得知道个所以然，然而很多视频并没有标记动作，根本不知道玩家执行了哪些动作来生成这些视频。

于是OpenAI提出了视频与训练模型（VPT）解决方案，在训练7万个小时后，模型就学会了怎么砍树、收集木头。

值得注意的是，预训练的智能体仍然在执行任务时是有限的。

如果想要让其学习更复杂的动作，那就需要精心设计的奖励函数来引导智能体完成必要的步骤。

相比之下，英伟达提出了不同的观点。

他们通过利用YouTube上的视频里的知识学习各种想得到的任务，包括GPT-3生成的任务。

为此，研究者并没有通过手动设计无数奖励，而是设计了一种算法MineCLIP，利用了大型与训练视频模型作为学习奖励函数。

作者介绍

这项最新研究团队共有十个人。

其中论文一作是李飞飞门下得意弟子Linxi Fan（范麟熙）。

他毕业于上海实验中学，本科就读于纽约哥伦比亚大学，目前在斯坦福大学攻读博士，主修计算机视觉、强化学习以及机器人技术。

参考资料：

https://minedojo.org/

登录查看更多

相关内容

视频

关注 0

视频

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

11+阅读 · 2021年12月10日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知会员服务

5+阅读 · 2021年11月23日

Yann LeCun主讲！纽约大学《深度学习》2021课程全部放出，附slides与视频

专知会员服务

47+阅读 · 2021年11月15日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

「元学习」最新AAAI2021-Tutorial，附视频与240页ppt

专知会员服务

117+阅读 · 2021年2月7日

【Twitter】时序图神经网络

专知会员服务

95+阅读 · 2020年10月15日

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

专知会员服务

138+阅读 · 2020年9月3日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

在虚拟世界里探索，李飞飞的「具身AI」离大脑更接近了

新智元

4+阅读 · 2022年6月29日

B站大谷新作：10天用AI画了一首爱情MV！瑰丽玄妙，宛如梦境

THU数据派

0+阅读 · 2022年6月27日

训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

极市平台

0+阅读 · 2022年6月25日

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

新智元

0+阅读 · 2022年6月24日

谷歌亮出 AI“王牌”，生成超逼真图片，网友：OpenAI DALL-E 要被碾压了？

AI前线

0+阅读 · 2022年6月9日

通才智能体来了！DeepMind的Gato算世界第一个AGI吗？

新智元

2+阅读 · 2022年6月7日

LeCun看了都说好！Meta AI一次搞定语音、视觉和文本三个SOTA

新智元

1+阅读 · 2022年2月15日

在《我的世界》当矿工，腾讯「绝悟」夺冠NeurIPS MineRL 挑战赛

机器之心

0+阅读 · 2021年12月11日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

GPU加速和风格感知的艺术图像和谐克隆

国家自然科学基金

4+阅读 · 2014年12月31日

卧式液体静压主轴在超精密飞切加工中的动态行为分析及其对加工表面生成影响机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

大豆抗镉和籽粒低积累的分子机理解析

国家自然科学基金

0+阅读 · 2012年12月31日

面向动画视频分析的相似视频片段探测技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

GPU通用计算系统检查点方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

大规模汽车群组动画的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

超声电机技术标准的基础研究

国家自然科学基金

1+阅读 · 2012年12月31日

GPU加速的视频抽象化和卡通化

国家自然科学基金

0+阅读 · 2009年12月31日

光控电刺激微芯片及其与视网膜的相互作用

国家自然科学基金

0+阅读 · 2008年12月31日

虚拟环境下面向大规模复杂数据空间的用户界面模型和关键交互技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

gym-DSSAT: a crop model turned into a Reinforcement Learning environment

Arxiv

0+阅读 · 2022年9月6日

Some Notes on the Similarity of Priority Vectors Derived by the Eigenvalue Method and the Geometric Mean Method

Arxiv

0+阅读 · 2022年9月5日

Using Large Language Models to Simulate Multiple Humans

Arxiv

0+阅读 · 2022年9月3日

Cohomology of the discrete de Rham complex on domains of general topology

Arxiv

0+阅读 · 2022年9月2日

Sparse Attentive Memory Network for Click-through Rate Prediction with Long Sequences

Arxiv

0+阅读 · 2022年9月2日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI

Arxiv

77+阅读 · 2019年10月22日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

VIP会员