会员服务 ·

DeepMind祖师带出了AI徒弟，用「传授」而非「训练」教AI寻宝

2022 年 3 月 4 日 新智元

新智元报道

编辑：袁榭好困

【新智元导读】用海量样本、参数「训练」AI，成效再显著，在DeepMind研究者的眼中，也远不如人类之间「传授」经验的方式的速度与能效。

最近，DeepMind又在强化学习领域整了个新活。

用通俗的中文来阐述，DeepMind研究者认为人类获取知识技能，更多来自于「传授」而非「训练」。

也就是说，这个全新智能体可以通过观察单个人类演示来快速学习新行为，而无需使用人工数据进行预训练。

日后你惹出祸来，不把为师说出来就行

文化传授是一种全领域通用的社会技能，它让智能体之间能以高保真度和召回率实时获取和使用彼此的经验信息。

人类社群里，正是基于此技能的积累过程，推动了累积的文化进化，在代际之间扩展了人类的技能、工具和知识。

数千年来，从航海路线到数学，从社会规范到艺术品，人类发现、进化并积累了丰富的文化知识。

定义为有效地将经验信息从一个人传递给另一个人的文化传授，是人类能力呈指数级增长的积累过程。

大到辛巴达环游七海，小到办公室同事教你用打印机。这些或显或隐的经验性技能，都是以社会性习得的「传授」、而非像如今「训练」AI的方式来传递的。

AI如果能用这种「传授」方式获得知识，不管是人机交互、还是AI自身的智能扩展，效率都将更上层楼。

为此，DeepMind利用深度强化学习技术开发了一种在人工智能体中产生零样本、高召回率的文化传授的方法。

经过训练后，人工智能体可以推断和回忆专家展示过的指引性知识。这一知识转移是实时发生的，并且可以概括以前未见过的大量任务。

给AI「传授」文化

DeepMind研究团队在程序生成的3D世界中训练和测试人工智能。

这个3D 世界中包含的彩色球形目标，嵌入在充满障碍的复杂地形中。行为者必须以正确的顺序导航抵达目标，而每种情景里目标的位置都会随机变化。

由于无法猜测顺序，因此单纯的探索策略会产生很大的惩罚。作为文化传授信息的来源，研究团队生成了一个「专家机器人」脚本，它能始终以正确的顺序触达目标。

对于一个复杂的世界来说，探测任务旨在对跳跃或蹲下的行为以及围绕垂直障碍物的导航进行清晰的演示。

在所有的探测中，人类的运动模式总是以目标为导向，接近最佳状态（不会产生任何分数惩罚），但显然与脚本机器人不同，在最初的几秒钟里需要时间来定位，并且不总是两次采取完全相同的路径。

智能体（蓝色）将跟随一个专家（红色）在世界中寻找目标，并跨越不同地形和障碍物，在专家离开之后智能体将继续完成任务。

专家为智能体

专家为人类

需要注意的是，视频中的轨迹只是为了让人类观察者方便跟踪，对于智能体来说是不可见的。

方法实现和结果

DeepMind研究团队通过排除法确定了文化传授出现所需的、最小数据量级的训练成分表，这个「入门工具包」被研究者称为 MEDAL-ADR。

这些训练成分包括「记忆存储」 (M)、「专家退出」 (ED)、「对专家的注意力偏见」 (AL) 和「自动域随机化」 (ADR)。

智能体的结构

训练架构

为了更好地感知世界，DeepMind给智能体安装了一圈激光雷达传感器。

通过从身上全方位地发出射线，智能体就能get到与障碍物之间的距离了。

在训练期间，智能体会在某个时间点出现的社会学习行为的进展。

训练8.6亿步：初始探索

训练15.9亿步：模仿

训练18.2亿步：记忆

训练26.7亿步：独立

泛化：世界空间

世界空间的参数是由地形的大小和颠簸程度以及障碍物的密度决定的。

为了量化空间普适性，DeepMind通过障碍物密度和世界大小的笛卡尔乘积来生成游戏地图。

障碍物复杂度: 1.0，地形复杂度: 1.0

泛化：游戏空间

游戏空间是由世界上的目标数量以及它们之间的正确导航路径所包含的交叉点数量来定义的。

为了量化空间普适性，DeepMind在「N-目标，M-交叉」游戏的规则内生成智能体的任务。

目标球体：5，路径交叉：4

泛化：专家空间

专家的空间是由专家在世界范围内采取的速度和行动分布来定义的。

专家可以是脚本化的机器人，也可以是具有更真实和多样化运动模式的人类玩家。

为了量化空间普适性，DeepMind利用运动速度和动作噪声的笛卡尔乘积，生成了与专家机器人的行为。

噪声: 0.5，最大速度: 13.0

噪声: 0.0，最大速度: 17.0

可以看到，没有噪声时机器人会直奔目标，而添加了噪声之后则会有明显的「犹豫」。而当专家的速度设置得过快时，智能体到后面就已经要完全追不上了。

经过反复测试，DeepMind开发的智能体在一系列具有挑战性的任务中都要优于所对比的控制变量，包括最先进的方法ME-AL。

此外，文化传授在知识转输中的泛化程度出人意料地好，并且人工智能体在专家退出后很久还能回忆起示范。

研究团队观察人工智能体的「大脑」，发现了负责编码社会信息和目标状态的、具有惊人可解释性的「神经元」。

总而言之，DeepMind开发的流程能训练出足够灵活、高召回率、实时文化传授的智能体，而无需在训练流水线中使用人工数据。这为文化演进成为开发通用人工智能的算法铺平了道路。

开发团队

Lei Zhang是DeepMind为此项目新组建的「通用文化智能团队」（Cultural General Intelligence Team）的成员。

他是多伦多大学电气工程博士，本科、硕学位也均在多伦多大学获得。

在深度强化学习、通用模型、卷积神经网络、循环神经网络、分布式训练、特征探测算法等领域有成就。

曾是OpenAI机械手解决魔方难题团队的成员，现是DeepMind研究科学家。

参考资料：

https://arxiv.org/abs/2203.00715

https://www.deepmind.com/research/publications/2022/Learning-Robust-Real-Time-Cultural-Transmission-without-Human-Data

登录查看更多

相关内容

DeepMind

关注 2

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【斯坦福-NLP-seminar】知识密集强化学习，72页ppt，Facebook TIM

专知会员服务

29+阅读 · 2021年4月27日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【DeepMind】强化学习教程，83页ppt

专知会员服务

158+阅读 · 2020年8月7日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

DeepMind的AI能指导人类的直觉吗？

AI前线

0+阅读 · 2022年3月21日

经验分享：如何在自己的创业中，用上GPT-3等AI大模型

学术头条

1+阅读 · 2022年3月5日

AI键盘侠来了：DeepMind开始训练智能体像人一样「玩」电脑

机器之心

0+阅读 · 2022年2月24日

弯道极限超车、击败人类顶级玩家，索尼AI赛车手登上Nature封面

机器之心

0+阅读 · 2022年2月10日

AI“双子星”同日联动：DeepMind加速编程自动化，OpenAI新方法解开2道国际奥数题

学术头条

0+阅读 · 2022年2月3日

在《我的世界》当矿工，腾讯「绝悟」夺冠NeurIPS MineRL 挑战赛

机器之心

0+阅读 · 2021年12月11日

李飞飞团队创建深度学习「游乐场」：AI也在自我进化，细思极恐！

THU数据派

0+阅读 · 2021年10月8日

无需 ML 专业知识，轻松部署、有效训练游戏试玩智能体

TensorFlow

0+阅读 · 2021年8月6日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

康复外骨骼机器人主-从无约束辅助行走训练中生物反馈信息的量化表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

基于人脑行为调控机理的移动机器人智能控制方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

室外移动机器人环境认知与自主规划方法及实验研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Neural Gaits: Learning Bipedal Locomotion via Control Barrier Functions and Zero Dynamics Policies

Arxiv

0+阅读 · 2022年4月18日

The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年4月16日

Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition

Arxiv

0+阅读 · 2022年4月15日

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

Arxiv

23+阅读 · 2019年11月5日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Deep Representation Learning for Domain Adaptation of Semantic Image Segmentation

Arxiv

10+阅读 · 2018年5月10日

CoNet: Collaborative Cross Networks for Cross-Domain Recommendation

Arxiv

13+阅读 · 2018年4月20日

VIP会员