成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
AI模型看看视频,就学会了玩《我的世界》:砍树、造箱子、制作石镐样样不差
2022 年 6 月 24 日
机器之心
机器之心报道
编辑:陈萍、小舟
《我的世界》里,玩家不一定都是人类,现在 AI 也会玩了。
《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石,但这却是 AI 此前无法企及的高度。
今天 OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体,其中使用《我的世界》游戏大量未标记视频数据集训练神经网络,仅使用少量标记数据。
微调之后,OpenAI 训练的模型还可以学习制作挖矿工具,熟练的人类玩家在 20 分钟内可以完成这个任务(24000 次操作)。OpenAI 的模型使用按键和鼠标移动控制人机界面,这使得该模型非常通用,这向通用计算机使用智能体迈出了一步。
论文地址:https://cdn.openai.com/vpt/Paper.pdf
我们先来看下效果,模型建造一个简陋的木制避难所:
制作石镐
在村庄里搜寻
VPT 方法
互联网包含大量可供我们学习的公开视频,例如游戏玩家演示游戏玩法,《我的世界》玩家建造一个错综复杂的房子。然而这些视频只提供了事情发生的记录,而不是确切的实现方式,即没有说明鼠标移动和按键的确切顺序。
相比于 OpenAI 的大型语言模型,要在视频游戏等更通用领域构建大型基础模型(foundation model),缺乏动作标签带来了新的挑战。
为了利用互联网上可用的大量未标记视频数据,该研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。
该研究首先从游戏商家那里收集了一个小型数据集,其中不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按键和鼠标的移动。利用这些数据,该研究训练了一个逆动力学模型 (IDM),以预测视频中每个步骤所采取的动作。重要的是,IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比,这种任务要容易得多,需要的数据也要少得多。然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集,并通过行为克隆来学习行动。
下图为 VPT 方法概览:
VPT 零样本结果
该研究选择《我的世界》这个游戏中验证了所提方法,因为它 (1) 是世界上最流行的视频游戏之一,拥有大量可免费获得的视频数据,并且 (2) 是开放式的,可以提供各种各样的行为动作,类似于现实世界的应用程序(如计算机使用)。与之前的工作在《我的世界》中使用简化动作空间不同,OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面:鼠标和键盘使用 20Hz 帧率。
该研究的行为克隆模型(VPT 基础模型)使用 70000 小时的 IDM 标记在线视频进行训练,在《我的世界 》中完成了强化学习几乎不可能实现的任务。新模型学会了砍树收集原木,将原木制作成木板,然后将木板制作成箱子;这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。
《我的世界》制作箱子过程中每一步所需的动作数目和时间。
零样本模型制作箱子的过程。
此外,该模型还可以执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。
游泳。
狩猎。
食用食物。
用行为克隆进行微调
基础模型旨在具有广泛的行为特征,并且完成各种任务。为了整合新知识或让他们专注于更具体的任务,通常的做法是基于更小、更具体的数据集对模型进行微调。
那么,VPT 基础模型如何微调到下游数据集呢?OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟,并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明,基础模型在可靠执行早期游戏技能方面有了巨大进步,而且微调后的模型还掌握了制作石器等新技能。
制作一个石镐所需要的物品顺序
数据扩展
也许该研究中最重要的假设是,使用标记的 contractor 数据训练 IDM(作为 VPT pipeline 的一部分)要比直接从同一个小型 contractor 数据集训练 BC 基础模型有效得多。为了验证这一假设,研究者不断增加数据量来训练基础模型,数据量规模从 1 小时增加到 70000 小时。他们将训练分为两个部分,如下图虚线所示,训练数据时长以 2000 为分界线。
基础模型训练数据对微调的影响:从图中可以看出,随着基础模型数据的增加,模型制作能力随之增加,只有在最大的数据规模下,我们才会看到石器工具制作的出现。
通过强化学习进行微调
当指定的奖励函数足够好时,强化学习便能够成为一种强大的方法去激发更高的,甚至是超人类的表现。VPT 模型和 RL 搭配更好,因为模仿人类行为可能比采取随机行动更有帮助。该研究设置了一些模型挑战任务,即收集钻石鹤嘴锄,这是在《我的世界》中前所未有的能力。
制作一把钻石鹤嘴锄需要一长串复杂的子任务。为了使这个任务易于处理,该研究会奖励序列中的每一项智能体。
RL 微调 VPT 模型制作钻石鹤嘴锄
该研究发现,从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在 10 分钟的《我的世界》中有 2.5% 会这样做),而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具,而人类平均需要 20 多分钟(24000 次操作)。
VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 提供了在更多领域可以直接学习大规模行为先验的可能性,而不仅仅是语言。虽然该研究只在 《我的世界》中进行实验,但该游戏开放的,并且原生人机界面(鼠标和键盘)非常通用,因此这项研究也会给其他领域带来益处,例如电脑使用。
此外,该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重,他们希望这些开源有助于未来 VPT 的研究。
原文链接:
https://openai.com/blog/vpt/
作为字节跳动每年一度的技术品牌活动,夏令营正在面向全球公开招募120高校在校生一起做有挑战的事!夏令营将采取「优质课程+项目实战」的形式,带领营员和技术大牛面对面沟通学习,深入了解领域前沿知识,掌握关键能力。
报名通道将于7月6日中午12:00关闭,快戳长图扫描二维码了解报名详细!!
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
视频
关注
0
视频
【AI+军事】附论文+PPT 《用于战术分析、训练和优化的深度自我优化人工智能》
专知会员服务
78+阅读 · 2022年4月17日
【AI+军事】附论文+PPT 《虚拟驾驶舱:在低成本VR模拟器中实现自然交互》
专知会员服务
39+阅读 · 2022年4月16日
推荐系统顶会RecSys2021最佳论文奖出炉!斯洛伐克KInIT获得最佳论文!
专知会员服务
8+阅读 · 2021年10月1日
多智能体深度强化学习:综述
专知会员服务
167+阅读 · 2021年8月3日
模仿学习: 进展,分类和机会
专知会员服务
46+阅读 · 2021年7月2日
【WWW2021】用于用户冷启动推荐的任务自适应神经过程
专知会员服务
19+阅读 · 2021年3月12日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
53+阅读 · 2020年1月29日
【元学习 | 论文】CoRL19,元世界:多任务和元强化学习的基准和评估,伯克利分校,Google
专知会员服务
26+阅读 · 2019年11月21日
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
机器之心
2+阅读 · 2022年7月24日
世界首个红石人工智能引爆B站!UP主在我的世界搭建,LeCun转发
新智元
0+阅读 · 2022年7月4日
在虚拟世界里探索,李飞飞的「具身AI」离大脑更接近了
新智元
4+阅读 · 2022年6月29日
李飞飞高徒新作!30万小时视频教会AI在《我的世界》里打败末影龙
新智元
0+阅读 · 2022年6月28日
B站大谷新作:10天用AI画了一首爱情MV!瑰丽玄妙,宛如梦境
THU数据派
0+阅读 · 2022年6月27日
训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
极市平台
0+阅读 · 2022年6月25日
OpenAI最新研究:AI模型看看视频,就学会了玩《我的世界》
学术头条
0+阅读 · 2022年6月24日
惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
新智元
0+阅读 · 2022年6月24日
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
机器之心
0+阅读 · 2022年4月29日
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
机器之心
0+阅读 · 2022年2月24日
大规模在线游戏网络用户行为研究
国家自然科学基金
2+阅读 · 2015年12月31日
海洋中多环芳烃原位富集及表面增强拉曼光谱现场定量检测方法的研究
国家自然科学基金
0+阅读 · 2014年12月31日
微重力下仿壁虎机器人调姿-着陆的仿生机理研究
国家自然科学基金
0+阅读 · 2014年12月31日
复杂条件下真实感树动画模拟方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
单纳米线太阳能电池的模板法制备研究
国家自然科学基金
0+阅读 · 2013年12月31日
表面等离激元增强应变BiFeO3外延薄膜异常光伏效应研究
国家自然科学基金
0+阅读 · 2012年12月31日
度量模型与管理模型整合下操作风险管理最优边界研究
国家自然科学基金
0+阅读 · 2011年12月31日
原位制备量子点/石墨烯复合物及其生物传感研究
国家自然科学基金
0+阅读 · 2010年12月31日
马铃薯抗晚疫病基因R3b的克隆与功能分析
国家自然科学基金
0+阅读 · 2009年12月31日
压电执行器迟滞特性的动态建模与直接控制研究
国家自然科学基金
0+阅读 · 2009年12月31日
Contextualizing Large-Scale Domain Knowledge for Conceptual Modeling and Simulation
Arxiv
0+阅读 · 2022年9月6日
gym-DSSAT: a crop model turned into a Reinforcement Learning environment
Arxiv
0+阅读 · 2022年9月6日
Dynamical simulation via quantum machine learning with provable generalization
Arxiv
0+阅读 · 2022年9月6日
Capacity Results for the Wiretapped Oblivious Transfer
Arxiv
0+阅读 · 2022年9月5日
Predict-and-Update Network: Audio-Visual Speech Recognition Inspired by Human Speech Perception
Arxiv
0+阅读 · 2022年9月5日
Deep reinforcement learning for quantum multiparameter estimation
Arxiv
0+阅读 · 2022年9月1日
PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval
Arxiv
11+阅读 · 2020年10月20日
Compositional GAN: Learning Conditional Image Composition
Arxiv
31+阅读 · 2018年7月19日
Image Captioning
Arxiv
11+阅读 · 2018年5月13日
How convolutional neural network see the world - A survey of convolutional neural network visualization methods
Arxiv
11+阅读 · 2018年4月30日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
视频
看看视频
OpenAI
基础模型
移动控制
微调
相关VIP内容
【AI+军事】附论文+PPT 《用于战术分析、训练和优化的深度自我优化人工智能》
专知会员服务
78+阅读 · 2022年4月17日
【AI+军事】附论文+PPT 《虚拟驾驶舱:在低成本VR模拟器中实现自然交互》
专知会员服务
39+阅读 · 2022年4月16日
推荐系统顶会RecSys2021最佳论文奖出炉!斯洛伐克KInIT获得最佳论文!
专知会员服务
8+阅读 · 2021年10月1日
多智能体深度强化学习:综述
专知会员服务
167+阅读 · 2021年8月3日
模仿学习: 进展,分类和机会
专知会员服务
46+阅读 · 2021年7月2日
【WWW2021】用于用户冷启动推荐的任务自适应神经过程
专知会员服务
19+阅读 · 2021年3月12日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
53+阅读 · 2020年1月29日
【元学习 | 论文】CoRL19,元世界:多任务和元强化学习的基准和评估,伯克利分校,Google
专知会员服务
26+阅读 · 2019年11月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
机器之心
2+阅读 · 2022年7月24日
世界首个红石人工智能引爆B站!UP主在我的世界搭建,LeCun转发
新智元
0+阅读 · 2022年7月4日
在虚拟世界里探索,李飞飞的「具身AI」离大脑更接近了
新智元
4+阅读 · 2022年6月29日
李飞飞高徒新作!30万小时视频教会AI在《我的世界》里打败末影龙
新智元
0+阅读 · 2022年6月28日
B站大谷新作:10天用AI画了一首爱情MV!瑰丽玄妙,宛如梦境
THU数据派
0+阅读 · 2022年6月27日
训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
极市平台
0+阅读 · 2022年6月25日
OpenAI最新研究:AI模型看看视频,就学会了玩《我的世界》
学术头条
0+阅读 · 2022年6月24日
惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
新智元
0+阅读 · 2022年6月24日
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
机器之心
0+阅读 · 2022年4月29日
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
机器之心
0+阅读 · 2022年2月24日
相关基金
大规模在线游戏网络用户行为研究
国家自然科学基金
2+阅读 · 2015年12月31日
海洋中多环芳烃原位富集及表面增强拉曼光谱现场定量检测方法的研究
国家自然科学基金
0+阅读 · 2014年12月31日
微重力下仿壁虎机器人调姿-着陆的仿生机理研究
国家自然科学基金
0+阅读 · 2014年12月31日
复杂条件下真实感树动画模拟方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
单纳米线太阳能电池的模板法制备研究
国家自然科学基金
0+阅读 · 2013年12月31日
表面等离激元增强应变BiFeO3外延薄膜异常光伏效应研究
国家自然科学基金
0+阅读 · 2012年12月31日
度量模型与管理模型整合下操作风险管理最优边界研究
国家自然科学基金
0+阅读 · 2011年12月31日
原位制备量子点/石墨烯复合物及其生物传感研究
国家自然科学基金
0+阅读 · 2010年12月31日
马铃薯抗晚疫病基因R3b的克隆与功能分析
国家自然科学基金
0+阅读 · 2009年12月31日
压电执行器迟滞特性的动态建模与直接控制研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Contextualizing Large-Scale Domain Knowledge for Conceptual Modeling and Simulation
Arxiv
0+阅读 · 2022年9月6日
gym-DSSAT: a crop model turned into a Reinforcement Learning environment
Arxiv
0+阅读 · 2022年9月6日
Dynamical simulation via quantum machine learning with provable generalization
Arxiv
0+阅读 · 2022年9月6日
Capacity Results for the Wiretapped Oblivious Transfer
Arxiv
0+阅读 · 2022年9月5日
Predict-and-Update Network: Audio-Visual Speech Recognition Inspired by Human Speech Perception
Arxiv
0+阅读 · 2022年9月5日
Deep reinforcement learning for quantum multiparameter estimation
Arxiv
0+阅读 · 2022年9月1日
PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval
Arxiv
11+阅读 · 2020年10月20日
Compositional GAN: Learning Conditional Image Composition
Arxiv
31+阅读 · 2018年7月19日
Image Captioning
Arxiv
11+阅读 · 2018年5月13日
How convolutional neural network see the world - A survey of convolutional neural network visualization methods
Arxiv
11+阅读 · 2018年4月30日
大家都在搜
洛克菲勒
自主可控
大规模语言模型
CMU博士论文
技术报告
无人艇
palantir
运筹
图解微积分
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top