成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
DeepMind祖师带出了AI徒弟,用「传授」而非「训练」教AI寻宝
2022 年 3 月 4 日
新智元
新智元报道
编辑:袁榭 好困
【新智元导读】
用海量样本、参数「训练」AI,成效再显著,在DeepMind研究者的眼中,也远不如人类之间「传授」经验的方式的速度与能效。
最近,DeepMind又在强化学习领域整了个新活。
用通俗的中文来阐述,DeepMind研究者认为人类获取知识技能,更多来自于「传授」而非「训练」。
也就是说,这个全新智能体可以通过观察单个人类演示来快速学习新行为,而无需使用人工数据进行预训练。
日后你惹出祸来,不把为师说出来就行
文化传授是一种全领域通用的社会技能,它让智能体之间能以高保真度和召回率实时获取和使用彼此的经验信息。
人类社群里,正是基于此技能的积累过程,推动了累积的文化进化,在代际之间扩展了人类的技能、工具和知识。
数千年来,从航海路线到数学,从社会规范到艺术品,人类发现、进化并积累了丰富的文化知识。
定义为有效地将经验信息从一个人传递给另一个人的文化传授,是人类能力呈指数级增长的积累过程。
大到辛巴达环游七海,小到办公室同事教你用打印机。这些或显或隐的经验性技能,都是以社会性习得的「传授」、而非像如今「训练」AI的方式来传递的。
AI如果能用这种「传授」方式获得知识,不管是人机交互、还是AI自身的智能扩展,效率都将更上层楼。
为此,DeepMind利用深度强化学习技术开发了一种在人工智能体中产生零样本、高召回率的文化传授的方法。
经过训练后,人工智能体可以推断和回忆专家展示过的指引性知识。这一知识转移是实时发生的,并且可以概括以前未见过的大量任务。
给AI「传授」文化
DeepMind研究团队在程序生成的3D世界中训练和测试人工智能。
这个3D 世界中包含的彩色球形目标,嵌入在充满障碍的复杂地形中。行为者必须以正确的顺序导航抵达目标,而每种情景里目标的位置都会随机变化。
由于无法猜测顺序,因此单纯的探索策略会产生很大的惩罚。作为文化传授信息的来源,研究团队生成了一个「专家机器人」脚本,它能始终以正确的顺序触达目标。
对于一个复杂的世界来说,探测任务旨在对跳跃或蹲下的行为以及围绕垂直障碍物的导航进行清晰的演示。
在所有的探测中,人类的运动模式总是以目标为导向,接近最佳状态(不会产生任何分数惩罚),但显然与脚本机器人不同,在最初的几秒钟里需要时间来定位,并且不总是两次采取完全相同的路径。
智能体(蓝色)将跟随一个专家(红色)在世界中寻找目标,并跨越不同地形和障碍物,在专家离开之后智能体将继续完成任务。
专家为智能体
专家为人类
需要注意的是,视频中的轨迹只是为了让人类观察者方便跟踪,对于智能体来说是不可见的。
方法实现和结果
DeepMind研究团队通过排除法确定了文化传授出现所需的、最小数据量级的训练成分表,这个「入门工具包」被研究者称为 MEDAL-ADR。
这些训练成分包括「记忆存储」 (M)、「专家退出」 (ED)、「对专家的注意力偏见」 (AL) 和「自动域随机化」 (ADR)。
智能体的结构
训练架构
为了更好地感知世界,DeepMind给智能体安装了一圈激光雷达传感器。
通过从身上全方位地发出射线,智能体就能get到与障碍物之间的距离了。
在训练期间,智能体会在某个时间点出现的社会学习行为的进展。
训练8.6亿
步
:初始探索
训练15.9亿
步
:模仿
训练18.2亿
步
:记忆
训练26.7亿步:独立
泛化:
世界空间
世界空间的参数是由地形的大小和颠簸程度以及障碍物的密度决定的。
为了量化空间普适性,DeepMind通过障碍物密度和世界大小的笛卡尔乘积来生成游戏地图。
障碍物复杂度: 1.0,地形复杂度: 1.0
泛化:游戏空间
游戏空间是由世界上的目标数量以及它们之间的正确导航路径所包含的交叉点数量来定义的。
为了量化空间普适性,DeepMind在「N-目标,M-交叉」游戏的规则内生成智能体的任务。
目标球体:5,路径交叉:4
泛化:专家空间
专家的空间是由专家在世界范围内采取的速度和行动分布来定义的。
专家可以是脚本化的机器人,也可以是具有更真实和多样化运动模式的人类玩家。
为了量化空间普适性,DeepMind利用运动速度和动作噪声的笛卡尔乘积,生成了与专家机器人的行为。
噪声: 0.5,最大速度: 13.0
噪声: 0.0,最大速度: 17.0
可以看到,没有噪声时机器人会直奔目标,而添加了噪声之后则会有明显的「犹豫」。而当专家的速度设置得过快时,智能体到后面就已经要完全追不上了。
经过反复测试,DeepMind开发的智能体在一系列具有挑战性的任务中都要优于所对比的控制变量,包括最先进的方法ME-AL。
此外,文化传授在知识转输中的泛化程度出人意料地好,并且人工智能体在专家退出后很久还能回忆起示范。
研究团队观察人工智能体的「大脑」,发现了负责编码社会信息和目标状态的、具有惊人可解释性的「神经元」。
总而言之,DeepMind开发的流程能训练出足够灵活、高召回率、实时文化传授的智能体,而无需在训练流水线中使用人工数据。这为文化演进成为开发通用人工智能的算法铺平了道路。
开发团队
Lei Zhang是
DeepMind为此项目
新组建的「通用文化智能团队」(
Cultural General Intelligence Team
)的成员。
他是
多伦多
大学电气工程博士
,本科、硕学位也均在多伦多大学获得。
在深度强化学习、通用模型、卷积神经网络、循环神经网络、分布式训练、特征探测算法等领域有成就。
曾是OpenAI机械手解决魔方难题团队的成员,现是DeepMind研究科学家。
参考资料:
https://arxiv.org/abs/2203.00715
https://www.deepmind.com/research/publications/2022/Learning-Robust-Real-Time-Cultural-Transmission-without-Human-Data
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
DeepMind
关注
2
【ICCV2021】一张草图训练可控的GAN?CMU朱俊彦团队
专知会员服务
21+阅读 · 2021年8月10日
【斯坦福-NLP-seminar】知识密集强化学习,72页ppt,Facebook TIM
专知会员服务
28+阅读 · 2021年4月27日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【DeepMind】强化学习教程,83页ppt
专知会员服务
153+阅读 · 2020年8月7日
【CMU-Google-斯坦福】可控行为的弱监督强化学习,Weakly-Supervised RL
专知会员服务
21+阅读 · 2020年4月8日
【CVPR2020-Facebook AI】单样本自适应域脸生成,One-Shot Domain Adaptation
专知会员服务
28+阅读 · 2020年4月6日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
53+阅读 · 2020年1月29日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
【DeepMind-Nando de Freitas】强化学习教程,102页ppt,Reinforcement Learning
专知会员服务
83+阅读 · 2019年11月15日
DeepMind的AI能指导人类的直觉吗?
AI前线
0+阅读 · 2022年3月21日
经验分享:如何在自己的创业中,用上GPT-3等AI大模型
学术头条
1+阅读 · 2022年3月5日
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
机器之心
0+阅读 · 2022年2月24日
弯道极限超车、击败人类顶级玩家,索尼AI赛车手登上Nature封面
机器之心
0+阅读 · 2022年2月10日
AI“双子星”同日联动:DeepMind加速编程自动化,OpenAI新方法解开2道国际奥数题
学术头条
0+阅读 · 2022年2月3日
在《我的世界》当矿工,腾讯「绝悟」夺冠NeurIPS MineRL 挑战赛
机器之心
0+阅读 · 2021年12月11日
李飞飞团队创建深度学习「游乐场」:AI也在自我进化,细思极恐!
THU数据派
0+阅读 · 2021年10月8日
无需 ML 专业知识,轻松部署、有效训练游戏试玩智能体
TensorFlow
0+阅读 · 2021年8月6日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
【强化学习】强化学习+深度学习=人工智能
产业智能官
53+阅读 · 2017年8月11日
基于身心共融运动训练的肢体康复机器人多模态反馈方法研究
国家自然科学基金
0+阅读 · 2017年12月31日
基于重要性采样的并行离策略强化学习方法研究
国家自然科学基金
20+阅读 · 2015年12月31日
康复外骨骼机器人主-从无约束辅助行走训练中生物反馈信息的量化表征方法研究
国家自然科学基金
0+阅读 · 2015年12月31日
几何/拓扑混合空间中的仿生导航方法研究
国家自然科学基金
1+阅读 · 2015年12月31日
未知环境中移动机器人探索式路径规划方法研究
国家自然科学基金
7+阅读 · 2015年12月31日
变换结构方程模型的非参数贝叶斯分析
国家自然科学基金
3+阅读 · 2014年12月31日
基于人脑行为调控机理的移动机器人智能控制方法研究
国家自然科学基金
2+阅读 · 2013年12月31日
规则驱动的自适应多代理系统研究
国家自然科学基金
3+阅读 · 2012年12月31日
室外移动机器人环境认知与自主规划方法及实验研究
国家自然科学基金
2+阅读 · 2011年12月31日
基于机器学习的惯性导航系统初始对准方法研究
国家自然科学基金
0+阅读 · 2009年12月31日
Neural Gaits: Learning Bipedal Locomotion via Control Barrier Functions and Zero Dynamics Policies
Arxiv
0+阅读 · 2022年4月18日
The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents
Arxiv
0+阅读 · 2022年4月16日
Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition
Arxiv
0+阅读 · 2022年4月15日
Invariant Information Bottleneck for Domain Generalization
Arxiv
15+阅读 · 2021年12月10日
CURL: Contrastive Unsupervised Representations for Reinforcement Learning
Arxiv
17+阅读 · 2020年4月28日
Towards a Human-like Open-Domain Chatbot
Arxiv
14+阅读 · 2020年1月27日
Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks
Arxiv
22+阅读 · 2019年11月5日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Deep Representation Learning for Domain Adaptation of Semantic Image Segmentation
Arxiv
10+阅读 · 2018年5月10日
CoNet: Collaborative Cross Networks for Cross-Domain Recommendation
Arxiv
13+阅读 · 2018年4月20日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
DeepMind
智能体
模型评估
AI
强化学习
样本
相关VIP内容
【ICCV2021】一张草图训练可控的GAN?CMU朱俊彦团队
专知会员服务
21+阅读 · 2021年8月10日
【斯坦福-NLP-seminar】知识密集强化学习,72页ppt,Facebook TIM
专知会员服务
28+阅读 · 2021年4月27日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【DeepMind】强化学习教程,83页ppt
专知会员服务
153+阅读 · 2020年8月7日
【CMU-Google-斯坦福】可控行为的弱监督强化学习,Weakly-Supervised RL
专知会员服务
21+阅读 · 2020年4月8日
【CVPR2020-Facebook AI】单样本自适应域脸生成,One-Shot Domain Adaptation
专知会员服务
28+阅读 · 2020年4月6日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
53+阅读 · 2020年1月29日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
【DeepMind-Nando de Freitas】强化学习教程,102页ppt,Reinforcement Learning
专知会员服务
83+阅读 · 2019年11月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
DeepMind的AI能指导人类的直觉吗?
AI前线
0+阅读 · 2022年3月21日
经验分享:如何在自己的创业中,用上GPT-3等AI大模型
学术头条
1+阅读 · 2022年3月5日
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
机器之心
0+阅读 · 2022年2月24日
弯道极限超车、击败人类顶级玩家,索尼AI赛车手登上Nature封面
机器之心
0+阅读 · 2022年2月10日
AI“双子星”同日联动:DeepMind加速编程自动化,OpenAI新方法解开2道国际奥数题
学术头条
0+阅读 · 2022年2月3日
在《我的世界》当矿工,腾讯「绝悟」夺冠NeurIPS MineRL 挑战赛
机器之心
0+阅读 · 2021年12月11日
李飞飞团队创建深度学习「游乐场」:AI也在自我进化,细思极恐!
THU数据派
0+阅读 · 2021年10月8日
无需 ML 专业知识,轻松部署、有效训练游戏试玩智能体
TensorFlow
0+阅读 · 2021年8月6日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
【强化学习】强化学习+深度学习=人工智能
产业智能官
53+阅读 · 2017年8月11日
相关基金
基于身心共融运动训练的肢体康复机器人多模态反馈方法研究
国家自然科学基金
0+阅读 · 2017年12月31日
基于重要性采样的并行离策略强化学习方法研究
国家自然科学基金
20+阅读 · 2015年12月31日
康复外骨骼机器人主-从无约束辅助行走训练中生物反馈信息的量化表征方法研究
国家自然科学基金
0+阅读 · 2015年12月31日
几何/拓扑混合空间中的仿生导航方法研究
国家自然科学基金
1+阅读 · 2015年12月31日
未知环境中移动机器人探索式路径规划方法研究
国家自然科学基金
7+阅读 · 2015年12月31日
变换结构方程模型的非参数贝叶斯分析
国家自然科学基金
3+阅读 · 2014年12月31日
基于人脑行为调控机理的移动机器人智能控制方法研究
国家自然科学基金
2+阅读 · 2013年12月31日
规则驱动的自适应多代理系统研究
国家自然科学基金
3+阅读 · 2012年12月31日
室外移动机器人环境认知与自主规划方法及实验研究
国家自然科学基金
2+阅读 · 2011年12月31日
基于机器学习的惯性导航系统初始对准方法研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Neural Gaits: Learning Bipedal Locomotion via Control Barrier Functions and Zero Dynamics Policies
Arxiv
0+阅读 · 2022年4月18日
The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents
Arxiv
0+阅读 · 2022年4月16日
Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition
Arxiv
0+阅读 · 2022年4月15日
Invariant Information Bottleneck for Domain Generalization
Arxiv
15+阅读 · 2021年12月10日
CURL: Contrastive Unsupervised Representations for Reinforcement Learning
Arxiv
17+阅读 · 2020年4月28日
Towards a Human-like Open-Domain Chatbot
Arxiv
14+阅读 · 2020年1月27日
Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks
Arxiv
22+阅读 · 2019年11月5日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Deep Representation Learning for Domain Adaptation of Semantic Image Segmentation
Arxiv
10+阅读 · 2018年5月10日
CoNet: Collaborative Cross Networks for Cross-Domain Recommendation
Arxiv
13+阅读 · 2018年4月20日
大家都在搜
自主可控
palantir
大型语言模型
CMU博士论文
技术报告
无人艇
洛克菲勒
波士顿动力
村上春树
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top