有触觉,懂策略,能交互!MIT开发出比你更灵活的搭积木大师

2019 年 2 月 18 日 1号机器人网


积木可不简单。


除了训练小朋友的整体项目意识,这也是一个视觉、触觉、交互和策略都需要上线的游戏。而在众多的搭积木游戏中,“迭迭乐”可能是其中最有趣,难度也最高的一种。


迭迭乐,又名迭迭高,也叫迭迭木,是一款经典的木制益智积木玩具。


游戏规则看似很简单,从下方的积木中,抽一根往上搭。但是游戏过程极度考验耐性和自制力。


这个游戏手残党反正是玩不了,手脚不是太灵活的小伙伴,也放弃吧。


但是,这个游戏对MIT团队研发的机器人来说,轻而易举~



它是怎么做到的呢?


首先,在硬件方面,需要一个软齿夹钳、一个力传感腕带以及一个外部摄像头,这些部件是用于观察和感应积木塔以及积木的。


其次,当机器人小心地推动一块积木时,计算机利用外部摄像头和力传感腕带分别接收视觉和触觉反馈,然后与机器人先前做出的动作进行比较。


在此过程中还需考虑了不同动作可能产生的结果——具体来说就是能否用特定的力度,抽出特定位置的积木放在塔顶并确保积木塔不倒。机器人会实时 “学习”是否继续推动这块积木来防止积木塔倒塌。


具体来说,与国际象棋、围棋等更依赖认知思维的任务或游戏不同,玩迭迭乐还需要掌握物理技巧,如试探、推、拉、放置和码齐。


这项游戏需要交互式感知和操作,你必须去触摸积木塔才能学会何时以及如何移动积木。


整个过程很难模拟,机器人必须和现实中的积木塔进行交互来学习。主要的困难是,如何利用物体和物理常识从相对较少的实验中学习。


当然,MIT团队并不止步迭迭乐游戏,目前开发的触觉学习系统正应用在垃圾分类回收、组装消费品等需要精确物理交互的任务。


相关研究细节发表在最近的《Science Robotics》期刊上。论文的第一作者是麻省理工学院的研究生Nima Fazeli。研究团队还包括Miquel Oller,Jiajun Wu,Zheng Wu和麻省理工学院大脑和认知科学教授Joshua Tenenbaum。


这项工作是开创性的,麻省理工学院机械工程系的Alberto Rodriguez评论道:“迭迭乐机器人展示了之前的机器人系统无法做到的事:快速学习执行任务的最优方法。它不仅利用常用的视觉反馈,还包括触觉反馈和物理交互。”


例如,在手机生产流水线上,几乎每一步都需要卡扣连接和螺丝固定,在这个过程中是依靠力和触摸来判断是否正确组装的,而不是视觉。


而这项技术的灵魂就正是是研究人员精心构建的学习模型。


推拉



在迭迭乐游戏中,54块长方形积木垂直交错堆迭成18层的积木塔,每层有三块积木,玩家轮流抽出一块积木放在塔顶来增加积木塔的高度,但是又不能使积木塔倒下。


想让机器人学会玩迭迭乐,传统的做法是收集积木块、积木塔和机器人三者之间可能发生的所有交互,这需不但要耗费大量计算资源,还需要成千上万次抽积木的操作。


Rodriguez和他的同伴从人类认知和实际操作角度寻找到了一种更有效的数据处理方式。


这个团队定制了一个行业标准的ABB IRB 120机械臂,在机器人能够触到的范围内搭建了一个积木塔,然后开始训练。机器人首先随机选择一块积木和推动积木的位置,然后用较小的力试图将积木推出塔外。


计算机则会在这个过程中记录每次尝试的视觉和力量数据,并标注是否成功。



这个机器人没有进行成千上万次的尝试(包括多次重建积木塔),它只进行了大约300次的尝试。把相似的数据和结果进行聚类分组,表示特定的积木行为。例如,一组数据可能表示很难移动的积木,另一组可能表示比较容易移动的积木,或者移动后积木塔会倒塌的积木。对于每一组数据,开发一个简单的模型,机器人将会基于它现有的视觉和触觉数据来预测移动一块积木的行为。


Fazeli说:“这种聚类技术受到人类认知过程的启发,显著提高了机器人学习游戏的效率。让机器人建立数据集群,然后学习每个集群的模型,而不是学习一个能够捕捉所有可能性的模型。”


堆迭


研究者用模拟器MuJoCo,在计算机模拟的迭迭乐游戏中与其他如今最先进的机器学习算法进行比试,从而了解迭迭乐机器人在现实世界中的学习方式。


Oller说:“我们把我们系统获得的数据信息提供给这些算法,看它们是如何玩迭迭乐的。与我们的算法相比,这些算法需要搭建更大数量级的积木塔才能学会这个游戏。”


研究团队让迭迭乐机器人与人类志愿者进行了几次非正式比赛。


Oller说:“我们看到积木塔倒塌之前人类能抽出几个积木块,我们的机器人和人类不相上下。”


但是,迭迭乐机器人在与人类玩家进行正式比赛之前还有很长的路要走。除了物理交互,迭迭乐游戏还需要一些策略,比如抽出一块积木,既不使积木塔倒塌又能使对手很难抽出下一块积木。


目前,研究团队并不致力于让机器人获得迭迭乐冠军,他们更想把这一新技能应用到其他领域。


Rodriguez说:“我们用手完成的很多任务都是凭感觉,这种感觉来自力量和触觉反馈,我们的算法可以完成这类任务。”


登录查看更多
1

相关内容

深入学习的成功来自于三个方面:高效的算法、强大的硬件和大规模的数据集。我们的实验室针对前两个方面,麻省理工学院汉实验室正在寻找有动机的学生在深入学习和计算机架构领域来解决有影响的人工智能问题,具有较轻的模型和较高的计算效率。
FPGA加速系统开发工具设计:综述与实践
专知会员服务
66+阅读 · 2020年6月24日
《强化学习》简介小册,24页pdf
专知会员服务
273+阅读 · 2020年4月19日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
77+阅读 · 2020年3月15日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
51+阅读 · 2020年2月19日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
何晖光:多模态情绪识别及跨被试迁移学习
深度学习大讲堂
55+阅读 · 2019年4月23日
Grasp2Vec:通过自我监督式抓取学习物体表征
谷歌开发者
9+阅读 · 2019年1月2日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
6+阅读 · 2018年11月1日
Image Captioning based on Deep Reinforcement Learning
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
Top
微信扫码咨询专知VIP会员