如何安全地吃掉悬崖边上的苹果？DeepMind&OpenAI给出3D版安全强化学习答案

会员服务 ·

如何安全地吃掉悬崖边上的苹果？DeepMind&OpenAI给出3D版安全强化学习答案

2022 年 2 月 13 日 量子位

行早发自凹非寺
量子位 | 公众号 QbitAI

DeepMind&OpenAI这回联手展示了一手安全强化学习模型的好活。

他们把二维的安全RL模型ReQueST推向了更实用的3D场景中。

要知道ReQueST原来只是应用在导航任务，2D赛车等二维任务中，从人类给出的安全轨迹中学习如何避免智能体“自残”。

△图注：原来ReQueST的二维导航任务（避开红色区域）和赛车任务

但是在实际的3D环境中问题更为复杂，例如执行任务的机器人需要在工作中避障，自动驾驶的汽车需要避免开到沟里去。

那么问题来了，用于2D任务的ReQueST在复杂的3D环境中还能行吗？在3D环境中人类给出的安全轨迹数据的质和量还能满足训练的需要吗？

针对这两个问题，DeepMind和OpenAI拿出了更复杂的动力模型和融入了人类反馈的奖励模型，成功将ReQueST迁移到3D环境中，向应用推进了一步。

并且安全性也有所提升，实验中智能体不安全行为数量减至baseline的十分之一。

怎么能直观地感受一下？我们到模拟3D环境中看一看。

在上图的场景中，房间左上侧是一个悬崖，智能体需要在房间两侧指示灯绿色消失之前，尽量吃到三个苹果。

其中一个苹果还需要踩按钮开门才能吃到。

在展示的视频中，智能体踩住按钮，打开闸门，成功吃到被关住的苹果，一套操作行云流水。

我们来看看它是怎么做到的。

3D版安全强化学习模型如何训练

在ReQueST的基础上，DeepMind和OpenAI需要解决的问题就是适用于3D场景的动力模型和奖励模型。

我们先从整体的流程上看一下这两者的角色。

如下图所示，是新模型对于吃苹果任务的训练流程。

浅蓝色框代表的是动力模型参与的步骤。从上面一排开始，由人提供一些安全的轨迹，避开红色的危险区域。

根据这些训练出动力模型，然后用它生成一些随机的轨迹。

接着到下面一排，让人类根据这些随机的轨迹，以奖励草图的方式提供反馈，再用这些奖励草图，训练初始的奖励模型，并依此不断地优化两者。

接下来我们分别介绍这两个模型。

这次DeepMind和OpenAI使用的动力模型使用LSTM依据动作序列和过去的图像观测预测未来的图像观测。

模型和ReQueST中的类似，就是编码器网络和反卷积解码器网络更大了点，并使用真实图像观测和预测值的均方误差损失进行训练。

最重要的是，这种损失建立在对每个步骤的未来多个步骤的预测上，从而使动力模型在长时间的部署中也能保持连贯性。

得到的训练曲线如下图所示，横轴代表步数，纵轴代表损失，不同颜色的曲线代表不同量级的轨迹数量：

此外，在奖励模型部分，DeepMind和OpenAI训练了一个220万参数的11层残差卷积网络。

输入为96x72的RGB图像，输出一个标量奖励预测，损失也是用均方误差。

在这个网络里，人类反馈的奖励草图也起到了很重要的作用。

奖励草图简单来说就是人工给奖励值打分。

如下图所示，图中上半部分就是人给出的草图，当下半部分的预测观察中有苹果的时候，奖励值就是1，如果苹果逐渐从视野中淡出，奖励就变成-1。

以此来调整奖励模型网络。

3D版安全强化学习模型效果如何

接下来我们来看看新模型和其他模型以及Baseline的对比效果如何。

结果如下图所示，不同的难度对应的是场景大小的不同。

下图左边是智能体从悬崖摔下去的次数，右边是吃掉苹果的数量。

需要注意的是，图例中的ReQueST（ours）代表训练集中包含了人类提供错误路径的训练结果。

而ReQueST（safe-only）代表训练集中只使用安全路径的训练结果。

另外，ReQueST（sparse）是不用奖励草图训练的结果。

从中可以看出，虽然Model-free这条baseline吃掉了所有的苹果，但是牺牲了很多安全性。

而ReQueST的智能体平均能吃掉三个苹果中的两个，并且跌落悬崖的数量只是baseline的十分之一，性能比较出众。

从奖励模型的区别上来看，奖励草图训练的ReQueST和稀疏标签训练的ReQueST效果相差很大。

稀疏标签训练的ReQueST平均一个苹果也吃不到。

看来，DeepMind和OpenAI抓的这两点确有改善之处。

参考链接：

[1]https://www.arxiv-vanity.com/papers/2201.08102/
[2]https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

ReQuEST

关注 0

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

不可错过！「强化学习导论」多伦多大学2021课程，附SLIDES与140页pdf

专知会员服务

67+阅读 · 2021年3月24日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

43+阅读 · 2021年1月11日

《强化学习导论》经典课程10讲，DeepMind大神David Silver主讲

专知会员服务

86+阅读 · 2021年1月2日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

这个赛车AI不再只图一时爽，学会了考虑长远策略

量子位

0+阅读 · 2022年3月22日

ICLR 2022：AI如何识别“没见过的东西”？

量子位

0+阅读 · 2022年2月14日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

3D模型“换皮肤”有多简单？也就一句话的事

量子位

0+阅读 · 2021年12月29日

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

教程 | 如何在Unity环境中用强化学习训练Donkey Car

论智

27+阅读 · 2018年9月13日

深度强化学习入门，这一篇就够了！

机器学习算法与Python学习

28+阅读 · 2018年8月17日

【强化学习】如何开启强化学习的大门？

产业智能官

13+阅读 · 2017年9月10日

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

图的能量与排序问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

面向增强现实的虚拟化身行为建模关键技术研究

国家自然科学基金

6+阅读 · 2011年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

基于图模型的动态立体场景检索研究

国家自然科学基金

0+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

Residual Mixture of Experts

Arxiv

0+阅读 · 2022年4月20日

Fast sampling via spectral independence beyond bounded-degree graphs

Arxiv

0+阅读 · 2022年4月20日

Domain-Agnostic Prior for Transfer Semantic Segmentation

Arxiv

0+阅读 · 2022年4月20日

A surrogate-based reliability analysis method of the motion of large flexible space structures

Arxiv

0+阅读 · 2022年4月19日

On strong avoiding games

Arxiv

0+阅读 · 2022年4月17日

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models

Arxiv

0+阅读 · 2022年4月16日

Learning Convolutional Neural Networks in the Frequency Domain

Arxiv

0+阅读 · 2022年4月15日

A Survey of the State of Explainable AI for Natural Language Processing

Arxiv

26+阅读 · 2020年10月1日

Bridging the Gap Between Spectral and Spatial Domains in Graph Neural Networks

Arxiv

15+阅读 · 2020年3月26日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员