从非常年轻的时代开始,人们就能够识别他们喜欢的物品并将它们捡起来,尽管从未明确地教过如何这样做。根据认知发展研究,与世界中物体相互作用的能力在物体感知和操纵能力的出现中起着至关重要的作用,例如有针对性的抓取。通过与周围的世界互动,人们能够自我监督学习:我们知道我们采取了什么行动,并从结果中学习。在机器人技术中,这种类型的自我监督学习正在积极研究,因为它使机器人系统能够在不需要大量训练数据或人工监督的情况下学习。
受对象持久性概念的启发,我们提出了Grasp2Vec,一种用于获取对象表示的简单而高效的算法。Grasp2Vec基于这样的直觉:尝试拾取任何东西都会提供几条信息 - 如果机器人抓住一个物体并将其抬起,则物体必须在抓取前进入场景。此外,机器人知道它抓住的物体当前处于其抓取器中,因此已从场景中移除。通过使用这种形式的自我监督,机器人可以通过在掌握之后的场景中的视觉变化来学习识别对象。
基于我们之前与X Robotics的合作,一系列机器人同时学习使用单目相机输入来抓住家用物品,我们使用机械臂来“无意地”抓住物体,并且这种经验可以让学习丰富的对象。然后可以使用这些表示来获取“有意识的抓取”能力,其中机器人手臂然后可以拾取用户命令的对象。
构建感知奖励功能
在强化学习(RL)的框架中,任务成功通过“奖励函数”来衡量。通过最大化奖励,机器人可以从头开始自学各种各样的技能。当通过简单的传感器测量来测量成功时,设计奖励功能很容易。一个简单的例子是一个按钮,当它被推动时,它可以直接向机器人提供奖励。
然而,当我们的成功标准取决于对手头任务的感知理解时,设计奖励功能要困难得多。考虑实例抓取的任务,其中向机器人呈现被抓持器中保持的期望对象的图片。在机器人试图抓住该物体后,它会检查抓取器的内容。此任务的奖励功能归结为回答对象识别问题:这些对象是否匹配?
在左侧,抓手握住刷子,背景中有一些物体(黄色杯子,蓝色塑料块)。 在右侧,抓手握住黄色杯子,刷子在背景中。 如果左图像是期望的结果,则良好的奖励功能应该“理解”上面的两个图像对应于不同的对象。
为了解决这个识别问题,我们需要一种感知系统,该系统从非结构化图像数据中提取有意义的对象概念(没有任何人类注释),以无人监督的方式学习对象的视觉感知。无监督学习算法的核心是工作,因为它们对数据做出结构性假设。通常假设图像可以被压缩到低维空间中,并且可以从先前帧预测视频中的帧。然而,如果没有对数据内容的进一步假设,这些通常不足以学习解缠结的对象表示。
如果我们在数据收集过程中使用机器人将物体彼此物理地解开,会怎么样?机器人领域为表示学习提供了一个令人兴奋的机会,因为机器人可以操纵对象,从而提供数据所需的变化因素。我们的方法依赖于抓取对象将其从场景中移除的洞察力。这产生1)在抓取之前的场景的图像,2)在抓取之后的场景的图像和3)被抓住的孤立的视图
左:掌握之前的物体。 中心:掌握后的物体。 右:Grasped对象。