大数据文摘出品
来源:mit.edu
编译:林安安、云舟
搭积木可不简单。
除了训练小朋友的整体项目意识,这也是一个视觉、触觉、交互和策略都需要上线的游戏。而在众多的搭积木游戏中,“叠叠乐”可能是其中最有趣,难度也最高的一种。
叠叠乐,又名叠叠高,也叫叠叠木,是一款经典的木制益智积木玩具。
游戏规则看似很简单,从下方的积木中,抽一根往上搭。但是游戏过程极度考验耐性和自制力。
这个游戏手残党反正是玩不了,手脚不是太灵活的小伙伴,也放弃吧。
但是,这个游戏对MIT团队研发的机器人来说,轻而易举~
它是怎么做到的呢?
首先,在硬件方面,需要一个软齿夹钳、一个力传感腕带以及一个外部摄像头,这些部件是用于观察和感应积木塔以及积木的。
其次,当机器人小心地推动一块积木时,计算机利用外部摄像头和力传感腕带分别接收视觉和触觉反馈,然后与机器人先前做出的动作进行比较。
在此过程中还需考虑了不同动作可能产生的结果——具体来说就是能否用特定的力度,抽出特定位置的积木放在塔顶并确保积木塔不倒。机器人会实时 “学习”是否继续推动这块积木来防止积木塔倒塌。
游戏视频☟
具体来说,与国际象棋、围棋等更依赖认知思维的任务或游戏不同,玩叠叠乐还需要掌握物理技巧,如试探、推、拉、放置和码齐。
这项游戏需要交互式感知和操作,你必须去触摸积木塔才能学会何时以及如何移动积木。
整个过程很难模拟,机器人必须和现实中的积木塔进行交互来学习。主要的困难是,如何利用物体和物理常识从相对较少的实验中学习。
当然,MIT团队并不止步叠叠乐游戏,目前开发的触觉学习系统正应用在垃圾分类回收、组装消费品等需要精确物理交互的任务。
相关研究细节发表在最近的《Science Robotics》期刊上。论文的第一作者是麻省理工学院的研究生Nima Fazeli。研究团队还包括Miquel Oller,Jiajun Wu,Zheng Wu和麻省理工学院大脑和认知科学教授Joshua Tenenbaum。
论文地址:
http://robotics.sciencemag.org/content/4/26/eaav3123
这项工作是开创性的,麻省理工学院机械工程系的Alberto Rodriguez评论道:“叠叠乐机器人展示了之前的机器人系统无法做到的事:快速学习执行任务的最优方法。它不仅利用常用的视觉反馈,还包括触觉反馈和物理交互。”
例如,在手机生产流水线上,几乎每一步都需要卡扣连接和螺丝固定,在这个过程中是依靠力和触摸来判断是否正确组装的,而不是视觉。
而这项技术的灵魂就正是是研究人员精心构建的学习模型。
推拉
在叠叠乐游戏中,54块长方形积木垂直交错堆叠成18层的积木塔,每层有三块积木,玩家轮流抽出一块积木放在塔顶来增加积木塔的高度,但是又不能使积木塔倒下。
想让机器人学会玩叠叠乐,传统的做法是收集积木块、积木塔和机器人三者之间可能发生的所有交互,这需不但要耗费大量计算资源,还需要成千上万次抽积木的操作。
Rodriguez和他的同伴从人类认知和实际操作角度寻找到了一种更有效的数据处理方式。
这个团队定制了一个行业标准的ABB IRB 120机械臂,在机器人能够触到的范围内搭建了一个积木塔,然后开始训练。机器人首先随机选择一块积木和推动积木的位置,然后用较小的力试图将积木推出塔外。
计算机则会在这个过程中记录每次尝试的视觉和力量数据,并标注是否成功。
这个机器人没有进行成千上万次的尝试(包括多次重建积木塔),它只进行了大约300次的尝试。把相似的数据和结果进行聚类分组,表示特定的积木行为。例如,一组数据可能表示很难移动的积木,另一组可能表示比较容易移动的积木,或者移动后积木塔会倒塌的积木。对于每一组数据,开发一个简单的模型,机器人将会基于它现有的视觉和触觉数据来预测移动一块积木的行为。
Fazeli说:“这种聚类技术受到人类认知过程的启发,显著提高了机器人学习游戏的效率。让机器人建立数据集群,然后学习每个集群的模型,而不是学习一个能够捕捉所有可能性的模型。”
堆叠
研究者用模拟器MuJoCo,在计算机模拟的叠叠乐游戏中与其他如今最先进的机器学习算法进行比试,从而了解叠叠乐机器人在现实世界中的学习方式。
Oller说:“我们把我们系统获得的数据信息提供给这些算法,看它们是如何玩叠叠乐的。与我们的算法相比,这些算法需要搭建更大数量级的积木塔才能学会这个游戏。”
研究团队让叠叠乐机器人与人类志愿者进行了几次非正式比赛。
Oller说:“我们看到积木塔倒塌之前人类能抽出几个积木块,我们的机器人和人类不相上下。”
但是,叠叠乐机器人在与人类玩家进行正式比赛之前还有很长的路要走。除了物理交互,叠叠乐游戏还需要一些策略,比如抽出一块积木,既不使积木塔倒塌又能使对手很难抽出下一块积木。
目前,研究团队并不致力于让机器人获得叠叠乐冠军,他们更想把这一新技能应用到其他领域。
Rodriguez说:“我们用手完成的很多任务都是凭感觉,这种感觉来自力量和触觉反馈,我们的算法可以完成这类任务。”
相关报道:
http://news.mit.edu/2019/robot-jenga-0130
志愿者介绍
后台回复“志愿者”加入我们