神奇|MIT的机器人会玩叠叠乐了!手残的你怕不怕?

2019 年 2 月 2 日 机器人大讲堂

来源|机器之心


在麻省理工学院 3 号楼的地下室里,一个机器人正在仔细地考虑下一步行动。它轻轻地戳着叠叠乐的木块,想要在不弄塌积木塔的情况下找到最容易抽出的一个。这是一个孤独、缓慢但又异常敏捷的游戏。



这个机器人是由 MIT 的工程师开发的,配备了一个软齿状夹持器、一个力感应腕带和一个外部摄像头,所有这些都是用来观察并感应积木塔以及单个积木块的。


在机器人小心翼翼地戳木块时,一台计算机利用摄像头和腕带接收视觉和触觉反馈,并将这些测量值与机器人之前的动作进行比较。它还考虑了那些动作的结果,具体来说,即一块积木在特定配置下及受到一个特定的力推动时能否被成功抽出。该机器人能实时「学习」是继续推动木块还是转向新的目标,以防积木塔倒塌。


该机器人的相关细节近日发表在《Science Robotics》杂志上。MIT 机械工程系助理教授 Alberto Rodriguez 表示,这个机器人展示了一些之前的机器人系统无法做到的事:快速学习开展任务的最佳方式,它利用的不只是当今研究充分使用的视觉线索,还有触觉和物理交互。


「与国际象棋、围棋等纯感知任务不同,玩叠叠乐还需要掌握物理技巧,如戳、推、拉、放及对齐木块等。这项游戏需要交互式感知和操作,你必须去触碰积木塔才能学会何时以及如何移动积木块。」Rodriguez 表示。「这项任务难以模拟,因此机器人必须在现实世界中通过与真实的叠叠乐积木塔进行交互才能学习。主要的困难在于利用物体、物理等相关常识从相对较少的实验中进行学习。」


他表示,除了玩叠叠乐之外,研究人员开发的触觉学习系统还可用于其他应用,尤其是那些需要谨慎的物理交互的任务,包括从垃圾填埋场中分离可回收物品和组装消费品。


「在手机装配线上,几乎每一步,咬合或拧螺丝的感觉都来自于力和接触,而不是视觉。」Rodriguez 说道,「学习执行这些动作的模型是这种技术的用武之地。」


论文一作 Nima Fazeli 是 MIT 的一名研究生。团队成员还包括 Miquel Oller、Jiajun Wu、Zheng Wu 和 MIT 脑与认知科学系教授 Joshua Tenenbaum。



推拉


在叠叠乐游戏中,54 个矩形积木堆叠 18 层,每层三块积木,每一层的积木与下面一层垂直。该游戏需要玩家抽出一块积木,然后将它放在塔顶,从而使塔达到新高度,而且新塔不会倒塌。


要想使机器人可以玩叠叠乐游戏,传统的机器学习方法可能需要捕捉积木、机器人和塔之间可能会发生的一切事情,这项任务耗费大量算力,它需要数千次(甚至可能数万次)抽积木尝试的数据。


Rodriguez 及其同事找到了一种能够更加高效利用数据的方式,让机器人学会玩叠叠乐,该方法受到人类认知和玩叠叠乐方式的启发。


该团队定制了一个工业标准 ABB IRB 120 的机械臂,然后把叠叠乐塔放在机器人能够够到的范围之内。然后开始训练,让机器人先选择一个随机积木块和推积木块的位置,然后用一点力量将该积木取出。


对于每次抽积木的尝试,计算机记录相关的视觉和力量数据,并把成功的尝试标注出来。


该机器人没有进行成千上万次抽积木尝试,而是只进行了大约 300 次尝试,数据和结果类似的尝试分为一组,表示特定的积木行为。例如,一组数据可能表示难以移动的积木,另一组可能表示较容易移动的积木,或者移动后塔会倒塌的积木。对于每组数据,机器人开发一个简单模型,基于当前的视觉和触觉数据来预测积木的行为。


Fazeli 称,这一聚类技术受到人类类似聚类技术的启发,大幅提升了机器人学习叠叠乐游戏的效率,「该机器人构建簇,然后为每一簇学习一个模型,而不是学习一个能够捕捉所有可能性的模型。」


堆叠


研究者利用模拟器 MuJoCo,在该游戏的计算机模拟中对比测试了他们的方法和其他当前最优机器学习算法,从而了解到该机器人在真实世界中的学习方式。


Oller 表示:「我们向这些算法提供我们系统获取的相同信息,看它们如何达到类似的玩 Jenga 水平。与我们的方法相比,这些算法需要探索更大数量级的塔才能学会这个游戏。」


该团队让其机器学习方法与几位人类志愿者进行了几次非正式 PK。


「我们看到塔倒塌之前人类能抽出几块积木,我们的方法与人类之间的差距不大。」Oller 称。


但是,如果研究者想要使这款机器人对抗人类选手,还有很长的路要走。除了物理交互以外,叠叠乐游戏还需要策略,如抽出某一块积木恰好能使对手很难抽出下一块积木,而且有可能造成木塔倒塌。


目前,该团队对开发机器人叠叠乐冠军没太多兴趣,而是更关注将这一新技能应用到其他应用领域。


「我们用手完成的很多任务都是凭感觉,而这种「感觉」来自于力量和触觉信息。」Rodriguez 说道,「我们提出的这种方法可以完成这类任务。」


该研究受到美国国家科学基金会国家机器人计划(National Robotics Initiative)的支持。


论文:See, feel, act: Hierarchical learning for complex manipulation skills with multisensory fusion



论文链接:

http://robotics.sciencemag.org/content/robotics/4/26/eaav3123.full.pdf


摘要:人类能够无缝结合触觉刺激、视觉刺激和直观经验,去探索和执行复杂的控制技能。他们不仅能够看到自己的动作,还能感觉到。目前的大部分机器人学习方法利用计算机视觉和深度学习的近期发展成果,获取所需数据量庞大的像素-动作策略。这些方法未利用物理学中的直观潜在结构或触觉特征。触觉推理在动物世界中无处不在,但在机器人控制中仍然未得到充分研究。触觉刺激只能通过侵入式交互来获取,对具备视觉刺激的数据流进行解释也很有难度。本研究提出一种方法,在机器人中模拟层次推理(hierarchical reasoning)和多感官融合,使其学会玩叠叠乐,一种需要物理交互才能玩好的复杂游戏。该游戏机制被制定为使用时间分层贝叶斯模型的生成过程,其具备行为原型和带噪积木状态的表征。该模型捕捉描述性潜在结构,机器人通过简短的探索阶段在力量和视觉领域中学习这些关系的概率模型。学会之后,机器人使用该表征推断玩游戏时的积木行为模式和状态。然后机器人基于推断,调整自己的当前动作和游戏策略,这种玩游戏的方式与人类类似。我们对比评估了该方法和三种标准基线方法,证明该方法在现实世界的叠叠乐游戏实现中具备有效性。


END


喜欢的话,就点一下“好看”吧!


登录查看更多
0

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
119+阅读 · 2020年1月15日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
MIT新书《强化学习与最优控制》
专知会员服务
276+阅读 · 2019年10月9日
何晖光:多模态情绪识别及跨被试迁移学习
深度学习大讲堂
55+阅读 · 2019年4月23日
Grasp2Vec:通过自我监督式抓取学习物体表征
谷歌开发者
9+阅读 · 2019年1月2日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
已删除
将门创投
8+阅读 · 2018年10月31日
一只小白的学习自述:如何用OpenMV Cam 点亮机器人双眼。
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
中美日全球美女机器人大PK,哪一款是你想要的味道?
机器人大讲堂
4+阅读 · 2017年9月16日
Arxiv
14+阅读 · 2019年11月26日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Image Captioning based on Deep Reinforcement Learning
VIP会员
相关资讯
何晖光:多模态情绪识别及跨被试迁移学习
深度学习大讲堂
55+阅读 · 2019年4月23日
Grasp2Vec:通过自我监督式抓取学习物体表征
谷歌开发者
9+阅读 · 2019年1月2日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
已删除
将门创投
8+阅读 · 2018年10月31日
一只小白的学习自述:如何用OpenMV Cam 点亮机器人双眼。
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
中美日全球美女机器人大PK,哪一款是你想要的味道?
机器人大讲堂
4+阅读 · 2017年9月16日
Top
微信扫码咨询专知VIP会员