【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

鲁棒的、通用的机器人可以在半结构化环境中自主地操纵物体，可以为社会带来物质利益。通过识别和利用半结构化环境中的模式，数据驱动的学习方法对于实现这种系统至关重要，使机器人能够在最少的人类监督下适应新的场景。然而，尽管在机器人操作的学习方面有大量的工作，但在机器人能够广泛应用于现实世界之前，仍有很大的差距。为了实现这一目标，本文解决了三个特殊的挑战:半结构化环境中的感知、适应新场景的操作以及对不同技能和任务的灵活规划。在讨论的方法中，一个共同的主题是通过将“结构”，或特定于机器人操作的先验，合并到学习算法的设计和实现中，实现高效和一般化的学习。本文的工作遵循上述三个挑战。

我们首先在基于视觉的感知难以实现的场景中利用基于接触的感知。在一项工作中，我们利用接触反馈来跟踪灵巧操作过程中手持物体的姿态。另一方面，我们学习定位机器人手臂表面的接触，以实现全臂感知。接下来，我们将探讨针对基于模型和无模型技能的新对象和环境调整操作。我们展示了学习面向任务的交互式感知如何通过识别相关动态参数来提高下游基于模型的技能的性能。本文还展示了如何使用以对象为中心的行动空间，使无模型技能的深度强化学习更有效和可泛化。

探索了灵活的规划方法，以利用低水平技能完成更复杂的操纵任务。我们开发了一个基于搜索的任务计划，通过学习技能水平动态模型，放松了之前工作中关于技能和任务表示的假设。该计划器随后应用于后续工作中，使用混合力-速度控制器的已知前提条件来执行多步接触丰富的操作任务。我们还探索了用自然语言描述的更灵活的任务的规划，使用代码作为结构化的动作空间。这是通过提示大型语言模型直接将自然语言任务指令映射到机器人策略代码来实现的，策略代码协调现有的机器人感知和技能库来完成任务。