成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
Transformers+世界模型,竟能拯救深度强化学习?
2022 年 9 月 4 日
新智元
新智元报道
编辑:武穆
【新智元导读】
前一段时间,LeCun曾预言AGI:
大模型和强化学习都没出路,世界模型才是新路。
但最近,康奈尔大学有研究人员,正试着用Transformers将强化学习与世界模型连接起来。
很多人都知道,当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本,分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master,以及吊打前两代的三代目AlphaGo Zero。
AlphaGo的棋艺能够逐代递增,背后其实是在AI技术上一个出现了明显的变化趋势,就是强化学习的比重越来越大。
到了近几年,强化学习又发生了一次「进化」,人们把「进化」后的强化学习,称为深度强化学习。
但深度强化学习代理的样本效率低下,这极大地限制了它们在实际问题中的应用。
最近,许多基于模型的方法被设计来解决这个问题,在世界模型的想象中学习是最突出的方法之一。
然而,虽然与模拟环境几乎无限的交互听起来很吸引人,但世界模型必须在很长一段时间内保持准确。
受Transformer在序列建模任务中的成功启发,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS,这是一种数据高效代理,它在由离散自编码器和自回归Transformer组成的世界模型中学习。
在Atari 100k基准测试中,在仅相当于两个小时的游戏时间里,IRIS的平均人类标准化得分为1.046,并且在26场比赛中的10场比赛中表现优于人类。
此前,LeCun曾说,强化学习会走进死胡同。
现在看来,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在将世界模型与强化学习(更准确地说是深度强化学习)融为一体,而连接两者的桥梁,便是Transformers。
深度强化学习有什么不一样
一提到人工智能技术,很多人能想到的,还是深度学习上。
其实,虽然深度学习还活跃在AI领域,但已经暴露出很多问题。
现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。
以至于针对这种局面,有人调侃道「有多少人工,就有多少智能」。
很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。
于是,强化学习开始崛起了。
强化学习和有监督学习、无监督学习都不太一样,它是用智能体不断地试错,并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为,只要奖励激励设定对头,强化学习终将造出真正AGI。
但强化学习也有问题,用LeCun的话说,就是「强化学习要用巨量数据才能训练模型执行最简单任务」。
于是强化学习与深度学习进行了结合,成为深度强化学习。
深度强化学习,强化学习是骨架,深度学习是灵魂,这是什么意思呢?深度强化学习的主要运行机制,其实与强化学习是基本一致的,只不过使用了深度神经网络来完成这一过程。
更有甚者,有的深度强化学习算法,干脆直接在现成的强化学习算法上,通过添加深度神经网络来实现一套新的深度强化学习算法,非常有名的深度强化学习算法DQN就是典型的例子。
Transformers有什么神奇之处
Transformers首次亮相于2017年,是Google的论文《Attention is All You Need》中提出的。
在 Transformer出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说,「从某种意义上说,NLP曾落后于计算机视觉,而Transformer改变了这一点。」
近年来,Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。
Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。
目前,Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。
比如,
Transformer
已被用于时间序列预测,
同时也是
DeepMind的蛋白质结构预测模型 AlphaFold
背后的关键创新。
Transformer最近也进入了计算机视觉领域,在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。
世界模型与Transformers联手,其他人怎么看
对于康奈尔大学的研究成果,有外国网友评论道:「请注意,这两个小时是来自环境的镜头长度,在GPU上进行训练需要一周的时间」。
还有人质疑:所以这个系统在一个特别精确的潜在世界模型上学习?该模型不需要预先训练吗?
另外,有人觉得,康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破:「似乎他们只是训练了世界模型,vqvae和演员评论家,所有这些都来自那2个小时的经验(和大约600个纪元)的重播缓冲区」。
参考资料:
https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
世界模型
关注
3
基于课程学习的深度强化学习研究综述
专知会员服务
57+阅读 · 2022年11月28日
《从机器学习到自主智能》,图灵奖得主Yann LeCun最新报告,附192页ppt与视频
专知会员服务
64+阅读 · 2022年8月2日
自主机器智能!图灵奖得主Yann LeCun指明下一代AI方向
专知会员服务
53+阅读 · 2022年6月29日
基于强化学习的空战动作生成
专知会员服务
130+阅读 · 2022年6月19日
图灵奖获得者Yann LeCun:最新《自主人工智能之路》报告,附70页ppt
专知会员服务
60+阅读 · 2022年2月26日
【DeepMind】基于模型的强化学习,174页ppt,Model-Based Reinforcement Learning
专知会员服务
85+阅读 · 2021年1月12日
【牛津大学博士论文】基于强化学习的无地图机器人导航,Reinforcement Learning Based MRN
专知会员服务
115+阅读 · 2020年5月18日
【Manning2020新书】深度强化学习实战,351页pdf,Deep Reinforcement Learning
专知会员服务
281+阅读 · 2020年3月10日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
【DeepMind-Nando de Freitas】强化学习教程,102页ppt,Reinforcement Learning
专知会员服务
83+阅读 · 2019年11月15日
详解DQN训练技巧!带你回到深度强化学习「梦开始的地方」
新智元
0+阅读 · 2022年9月7日
从Transformer到扩散模型,一文了解基于序列建模的强化学习方法
PaperWeekly
2+阅读 · 2022年8月27日
强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类
THU数据派
0+阅读 · 2022年7月11日
LeCun用62页论文公布未来十年研究计划:AI自主智能
THU数据派
0+阅读 · 2022年6月28日
LeCun预言AGI:大模型和强化学习都是斜道!我的「世界模型」才是新路
新智元
2+阅读 · 2022年6月25日
Yann LeCun最新发声:自监督+世界模型,让 AI 像人类与一样学习与推理
THU数据派
0+阅读 · 2022年3月4日
Meta「世界模型」遭质疑:10年前就有了!LeCun:关键在于构建和训练
新智元
0+阅读 · 2022年2月25日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
每日论文 | 用循环世界模型改良策略进化;轻量级CNN:ChannelNets;强化学习知识点总结
论智
14+阅读 · 2018年9月7日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
大型异构系统上数百万核可扩展的新型区域分裂隐式求解器研究
国家自然科学基金
0+阅读 · 2015年12月31日
Neddylation修饰催化酶UBC12作为新型抗肺癌分子靶点的鉴定及其机制研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于近似动态规划附加学习结构的电力系统控制在线自趋优理论与方法
国家自然科学基金
0+阅读 · 2012年12月31日
大规模数据的个性化分类学习
国家自然科学基金
1+阅读 · 2012年12月31日
基于贝叶斯推理的模糊逻辑强化学习模型研究
国家自然科学基金
17+阅读 · 2012年12月31日
基于事件的强化学习及其在群机器人优化控制中的应用
国家自然科学基金
3+阅读 · 2012年12月31日
非特定人自然语音情感识别的建模方法研究
国家自然科学基金
1+阅读 · 2011年12月31日
具有模仿与强化学习机制的智能机器人
国家自然科学基金
2+阅读 · 2009年12月31日
数值求解最优控制: 动态规划方法
国家自然科学基金
1+阅读 · 2009年12月31日
基于多智能体强化学习的多机器人系统研究
国家自然科学基金
45+阅读 · 2009年12月31日
A Faster $k$-means++ Algorithm
Arxiv
0+阅读 · 2022年11月28日
Scaling Up Dynamic Graph Representation Learning via Spiking Neural Networks
Arxiv
0+阅读 · 2022年11月26日
Pac-Man Pete: An extensible framework for building AI in VEX Robotics
Arxiv
0+阅读 · 2022年11月25日
An Ensemble-Based Deep Framework for Estimating Thermo-Chemical State Variables from Flamelet Generated Manifolds
Arxiv
0+阅读 · 2022年11月25日
Quantum Multi-Agent Meta Reinforcement Learning
Arxiv
0+阅读 · 2022年11月25日
Deep Reinforcement Learning for Multi-Agent Interaction
Arxiv
42+阅读 · 2022年8月2日
Transformers are Meta-Reinforcement Learners
Arxiv
15+阅读 · 2022年6月14日
A Survey of Transformers
Arxiv
103+阅读 · 2021年6月8日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
世界模型
强化学习
AlphaGo
深度强化学习
康奈尔大学 (Cornell University)
Iris (数据集)
相关VIP内容
基于课程学习的深度强化学习研究综述
专知会员服务
57+阅读 · 2022年11月28日
《从机器学习到自主智能》,图灵奖得主Yann LeCun最新报告,附192页ppt与视频
专知会员服务
64+阅读 · 2022年8月2日
自主机器智能!图灵奖得主Yann LeCun指明下一代AI方向
专知会员服务
53+阅读 · 2022年6月29日
基于强化学习的空战动作生成
专知会员服务
130+阅读 · 2022年6月19日
图灵奖获得者Yann LeCun:最新《自主人工智能之路》报告,附70页ppt
专知会员服务
60+阅读 · 2022年2月26日
【DeepMind】基于模型的强化学习,174页ppt,Model-Based Reinforcement Learning
专知会员服务
85+阅读 · 2021年1月12日
【牛津大学博士论文】基于强化学习的无地图机器人导航,Reinforcement Learning Based MRN
专知会员服务
115+阅读 · 2020年5月18日
【Manning2020新书】深度强化学习实战,351页pdf,Deep Reinforcement Learning
专知会员服务
281+阅读 · 2020年3月10日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
【DeepMind-Nando de Freitas】强化学习教程,102页ppt,Reinforcement Learning
专知会员服务
83+阅读 · 2019年11月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
机器战争:将自主系统纳入军事框架
《作战战略和决策规划的数学模型》
美空军条令《反陆作战》最新84页
《军事高价值资产自主防御与护航的深度强化学习方法》最新148页
相关资讯
详解DQN训练技巧!带你回到深度强化学习「梦开始的地方」
新智元
0+阅读 · 2022年9月7日
从Transformer到扩散模型,一文了解基于序列建模的强化学习方法
PaperWeekly
2+阅读 · 2022年8月27日
强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类
THU数据派
0+阅读 · 2022年7月11日
LeCun用62页论文公布未来十年研究计划:AI自主智能
THU数据派
0+阅读 · 2022年6月28日
LeCun预言AGI:大模型和强化学习都是斜道!我的「世界模型」才是新路
新智元
2+阅读 · 2022年6月25日
Yann LeCun最新发声:自监督+世界模型,让 AI 像人类与一样学习与推理
THU数据派
0+阅读 · 2022年3月4日
Meta「世界模型」遭质疑:10年前就有了!LeCun:关键在于构建和训练
新智元
0+阅读 · 2022年2月25日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
每日论文 | 用循环世界模型改良策略进化;轻量级CNN:ChannelNets;强化学习知识点总结
论智
14+阅读 · 2018年9月7日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
相关基金
大型异构系统上数百万核可扩展的新型区域分裂隐式求解器研究
国家自然科学基金
0+阅读 · 2015年12月31日
Neddylation修饰催化酶UBC12作为新型抗肺癌分子靶点的鉴定及其机制研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于近似动态规划附加学习结构的电力系统控制在线自趋优理论与方法
国家自然科学基金
0+阅读 · 2012年12月31日
大规模数据的个性化分类学习
国家自然科学基金
1+阅读 · 2012年12月31日
基于贝叶斯推理的模糊逻辑强化学习模型研究
国家自然科学基金
17+阅读 · 2012年12月31日
基于事件的强化学习及其在群机器人优化控制中的应用
国家自然科学基金
3+阅读 · 2012年12月31日
非特定人自然语音情感识别的建模方法研究
国家自然科学基金
1+阅读 · 2011年12月31日
具有模仿与强化学习机制的智能机器人
国家自然科学基金
2+阅读 · 2009年12月31日
数值求解最优控制: 动态规划方法
国家自然科学基金
1+阅读 · 2009年12月31日
基于多智能体强化学习的多机器人系统研究
国家自然科学基金
45+阅读 · 2009年12月31日
相关论文
A Faster $k$-means++ Algorithm
Arxiv
0+阅读 · 2022年11月28日
Scaling Up Dynamic Graph Representation Learning via Spiking Neural Networks
Arxiv
0+阅读 · 2022年11月26日
Pac-Man Pete: An extensible framework for building AI in VEX Robotics
Arxiv
0+阅读 · 2022年11月25日
An Ensemble-Based Deep Framework for Estimating Thermo-Chemical State Variables from Flamelet Generated Manifolds
Arxiv
0+阅读 · 2022年11月25日
Quantum Multi-Agent Meta Reinforcement Learning
Arxiv
0+阅读 · 2022年11月25日
Deep Reinforcement Learning for Multi-Agent Interaction
Arxiv
42+阅读 · 2022年8月2日
Transformers are Meta-Reinforcement Learners
Arxiv
15+阅读 · 2022年6月14日
A Survey of Transformers
Arxiv
103+阅读 · 2021年6月8日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
大家都在搜
palantir
大模型
武器目标分配
兵棋推演
知识图谱
壁画
RE-NET
笛卡尔
MoE
EBSD晶体学织构基础及数据处理
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top