视频 | DeepMind出了学习模式「SAC-X」，可以让机器人探索自我

2018 年 4 月 15 日 AI科技评论 雷锋字幕组

为机器人提供一个简单目标，并在完成时提供奖励。

AI 科技评论按：这里是，雷锋字幕组编译的 Two minutes paper 专栏，每周带大家用碎片时间阅览前沿技术，了解 AI 领域的最新研究成果。

原标题：DeepMind's AI Learns Complex Behaviors From Scratch | Two Minute Papers #239

翻译 | 徐速廖颖字幕 | 凡江整理 | 李逸帆吴璇

本期论文：Learning by Playing - Solving Sparse Reward Tasks from Scratch

▷每周一篇2分钟论文视频解读

前些日子，DeepMind 为 AI 机器人创建了一种全新的强化学习模式，名为 SAC-X（预定辅助控制），能够为机器人提供一个简单目标，并在完成时提供奖励。

论文解读视频中，我们可以看到有机器人在协助生产，但机器人没有预装任何特定程序，没有任何老师指导学习算法，也没有对环境的先验知识，只是在摸索如何达到人们的要求，并且获得相应的奖励。

SAC-X 通过给予机器人奖励反馈，让机器人从零开始学会复杂操作。这个配置有系列通用辅助任务的机器人，试图通过 off-policy 强化学习慢慢完成任务。过程中，研究人员不会手把手教机器人完成任务，只会开启机器配备的感测器，剩下的留给机器自己探索，直到任务完成为止。

这个方法背后的创新点在于，「预定的动作」和「辅助策略操作」能让机器人有效摸索周边环境，机器人在奖励非常稀疏的情况下，也能表现得非常好。在有挑战性的机器人操作设定演示实验中，这样的方法也能奏效。

论文原址：

https://arxiv.org/abs/1802.10567

雷锋字幕组正在招募中，扫描下方二维码，备注「雷锋字幕组+姓名」加入我们吧！

对了，我们招人了，了解一下？

4 月 AI 求职季

8 大明星企业

10 场分享盛宴

20 小时独门秘籍

4.10-4.19，我们准时相约！

┏(＾0＾)┛欢迎分享，明天见！

登录查看更多

相关内容

SAC-X

关注 0

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

专知会员服务

15+阅读 · 2020年3月21日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【论文】欺骗学习（Learning by Cheating）

专知会员服务

28+阅读 · 2020年1月3日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知会员服务

34+阅读 · 2019年11月26日

【ICML 2019 | 元学习教程】伯克利Chelsea Finn、Sergey Levine主讲，附111PDF

专知会员服务

54+阅读 · 2019年11月12日

新书分享：强化学习最新书稿《强化学习导论》（Reinforcement Learning An Introduction）第二版出炉

专知会员服务

118+阅读 · 2019年10月25日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

前沿|机器人真的有意识了！突破狭义AI的自我学习机器人问世

机器人大讲堂

3+阅读 · 2019年2月2日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

Grasp2Vec：通过自我监督式抓取学习物体表征

谷歌开发者

9+阅读 · 2019年1月2日

谷歌大脑QT-Opt算法，机器人探囊取物成功率96%，Jeff Dean大赞

量子位

4+阅读 · 2018年6月29日

如何用人工智能秒杀超级马里奥游戏

AI100

5+阅读 · 2018年1月8日

【NIPS2017最佳论文三分钟视频简介】CMU「冷扑大师」不完美信息博弈研究

专知

5+阅读 · 2017年11月30日

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

专知

9+阅读 · 2017年10月29日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

Relation-Aware Graph Attention Network for Visual Question Answering

Arxiv

7+阅读 · 2019年10月9日

Two-phase Hair Image Synthesis by Self-Enhancing Generative Model

Arxiv

3+阅读 · 2019年2月28日

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Arxiv

9+阅读 · 2018年11月25日

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

From VQA to Multimodal CQA: Adapting Visual QA Models for Community QA Tasks

Arxiv

8+阅读 · 2018年8月29日

Human-In-The-Loop Person Re-Identification

Arxiv

4+阅读 · 2018年5月4日

IQA: Visual Question Answering in Interactive Environments

Arxiv

5+阅读 · 2018年4月5日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日