拔掉机器人的一条腿,它还能学走路?| 三次元里优化的DRL策略

2018 年 6 月 29 日 量子位
行走栗 发自 凹非寺 
量子位 出品 | 公众号 QbitAI



迪士尼的机器人,不管剩几条腿 (n>0) ,都能学会走路。

那么,是怎么学的?

研究团队不用模拟器,直接在硬件上修炼深度强化学习 (DRL) 的策略

真实世界,或许比模拟器要单调一些。不过,有物理支持的经验,可能更加珍贵。

除了有清新脱俗的训练环境,这只机器人,也并不是只机器人而已。

想要几条腿,问过机器人吗?



机器人的腿是模块化的,就是说,你想给它装上一条、两条、三条腿,都可以。

嫌腿太多,拔掉一些也可以。反正只要有腿,机器人还可以重新学走路。

另外,机器人的腿还分三种,运动方式各不相同——

在分别介绍之前,先给各位一些方向感。



A腿,Roll-Pitch,横轴加纵轴。



B腿,Yaw-Pitch,竖轴加纵轴。



C腿,Roll-Yaw-Pitch,横轴加竖轴加纵轴。



于是,C腿比另外两条腿粗壮一些,似乎也可以理解了。

如果按最多能装六条腿来算,一共可以拼出多少种不同的机器人?



这样一来,即便不是模拟器,也算多姿多彩了。

两种DRL同步走

由于,不知道机器人什么时候,就会多条胳膊少条腿,迪士尼团队准备了两种深度强化学习算法。

一是TRPO (信赖域策略优化) 算法,沿用既定策略 (On-Policy) 的批量学习方法,适合优化大型非线性的策略。

二是DDPG (深度确定性策略梯度) 算法,用“演员-评论家 (Actor-Critic) ”的方法,优化策略。

不同的算法,不同的姿势

那么,在三次元学习过程中优化的策略,有多优秀?

按照腿的数量,分别来看一下。

一条腿



图中下者,是用TRPO学习完毕的A腿,与没有学过的A腿相比,走路姿势已经明显不同,速度也真的加快了一点点。

两条腿



这是两条B腿在TRPO熏陶之下形成的姿势,轻快地触地,轻快地弹起。



这同样是两条B腿,但算法换成了DDPG,姿势又完全不同了,好像慵懒地向前翻滚。

三条腿



这次,机器人长了三条B腿。有了TRPO的加成,它用欢脱地节奏点着地,和双腿TRPO的操作很相似

总体看上去,用TRPO训练过后,机器人会比较活跃,用DDPG修炼之后,机器人就有了佛系属性。

不管它有怎样的个性,研究人员都很开心。毕竟,那表示深度强化学习算法,是有效的。一看就知道,是谁带出的徒弟。

你也想被支配一下?



同性交友网站的章鱼猫 (假装) 表示,它也想接受DRL算法的蹂躏,然后解锁更娇嫩的舞姿。

论文传送门:

https://s3-us-west-1.amazonaws.com/disneyresearch/wp-content/uploads/20180625141830/Automated-Deep-Reinforcement-Learning-Environment-for-Hardware-of-a-Modular-Legged-Robot-Paper.pdf

加入社群

量子位AI社群18群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot8入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot8,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
0

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
优化哈希策略
ImportNew
5+阅读 · 2018年1月17日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
7+阅读 · 2018年12月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
相关资讯
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
优化哈希策略
ImportNew
5+阅读 · 2018年1月17日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员