灵巧性,即与物理世界进行复杂交互的能力,是机器人技术的核心。然而,现有的机器人操纵研究集中在灵巧性有限的任务上,如拾放。机器人的动作技能往往是准静态的,具有预定义或有限的接触事件序列,并涉及受限的物体运动。与此相反,人类使用动态和丰富的接触操作技能与周围环境互动,使我们能够在更广泛的环境中执行更多种类的任务。
本论文探讨了使用强化学习(RL)为机器人装备泛化灵巧性的方法。RL解决了建模为马尔可夫决策过程(MDP)的顺序决策问题。RL在许多领域,如游戏,都取得了显著的成功,使其成为开发高级操作技能的有希望的技术。我们的研究为以下论题声明提供支持:重新考虑我们如何将机器人问题框定为MDP是通过RL实现泛化灵巧性的有效且必要的方法。我们审查了将RL应用于操控时面临的三个挑战,并讨论了我们通过重新考虑MDP公式来克服它们的方法。
首先,机器人数据的收集既耗时又昂贵。为了有效地重用机器人数据,我们提出了一种离线RL算法,通过构建MDP的潜在操作空间。此外,我们讨论了一个框架,可以在具有非平稳动态的环境中有效地重用机器人数据。其次,机器人的灵巧性通常被认为受到机器人硬件设计的限制。我们提议通过利用外部环境来增强机器人的灵巧性,超越其硬件限制,展现出动态和丰富的接触行为。我们证明,重新思考我们如何定义MDP的环境在提高机器人使用RL的灵巧性方面是有效的。第三,学习可以推广的灵巧技能是具有挑战性的。我们提出了一个RL框架,该框架具有空间定位和时间抽象的操作表示,使机器人能够学习可以推广到未见物体的复杂交互。这进一步支持了我们的说法,即重新思考MDP的操作空间可以导致泛化的灵巧性。