视频 | DeepMind出了学习模式「SAC-X」,可以让机器人探索自我

2018 年 4 月 15 日 AI科技评论 雷锋字幕组

为机器人提供一个简单目标,并在完成时提供奖励。

AI 科技评论按:这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

原标题:DeepMind's AI Learns Complex Behaviors From Scratch | Two Minute Papers #239

翻译 | 徐速  廖颖    字幕 | 凡江    整理 | 李逸帆  吴璇

本期论文:Learning by Playing - Solving Sparse Reward Tasks from Scratch


▷每周一篇2分钟论文视频解读

前些日子,DeepMind 为 AI 机器人创建了一种全新的强化学习模式,名为 SAC-X(预定辅助控制),能够为机器人提供一个简单目标,并在完成时提供奖励。

论文解读视频中,我们可以看到有机器人在协助生产,但机器人没有预装任何特定程序,没有任何老师指导学习算法,也没有对环境的先验知识,只是在摸索如何达到人们的要求,并且获得相应的奖励。

SAC-X 通过给予机器人奖励反馈,让机器人从零开始学会复杂操作。这个配置有系列通用辅助任务的机器人,试图通过 off-policy 强化学习慢慢完成任务。过程中,研究人员不会手把手教机器人完成任务,只会开启机器配备的感测器,剩下的留给机器自己探索,直到任务完成为止。

这个方法背后的创新点在于,「预定的动作辅助策略操作能让机器人有效摸索周边环境,机器人在奖励非常稀疏的情况下,也能表现得非常好。在有挑战性的机器人操作设定演示实验中,这样的方法也能奏效。

论文原址:

https://arxiv.org/abs/1802.10567

雷锋字幕组正在招募中,扫描下方二维码,备注「雷锋字幕组+姓名加入我们吧!

对了,我们招人了,了解一下?

4 月 AI 求职季

8 大明星企业

10 场分享盛宴

20 小时独门秘籍

4.10-4.19,我们准时相约!

┏(^0^)┛欢迎分享,明天见!

登录查看更多
0

相关内容

专知会员服务
41+阅读 · 2020年2月20日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Grasp2Vec:通过自我监督式抓取学习物体表征
谷歌开发者
9+阅读 · 2019年1月2日
如何用人工智能秒杀超级马里奥游戏
AI100
5+阅读 · 2018年1月8日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
4+阅读 · 2018年5月4日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员