【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

机器人操控系统涉及一个包括在环境中感知对象和在3D空间中规划行动的流程。深度学习方法被用于将场景分割成对象的组成部分，然后学习以对象为中心的特征以预测下游任务的行动。尽管在几项操控任务中取得了有希望的表现，监督方法缺乏与对象的一般属性相关的归纳偏差。最近的进展显示，通过以对象为中心的方式编码和重构场景，模型可以在没有人类监督的情况下从原始数据中发现类对象实体。此外，通过重构发现的对象，模型可以学习一个变分潜空间，捕获对象的各种形状和纹理，通过选择的先验分布进行规范化。在本论文中，我们探究了这一学习到的以对象为中心的潜空间的属性，并开发了可以应用于现实世界机器人场景的新颖以对象为中心的生成模型（OCGMs）。 在本论文的第一部分，我们研究了一个利用学习到的潜空间来优化应用于到达任务的一系列工具的工具合成任务。给定一个展示场景中障碍物和到达目标的图像，训练一个可供性预测器来预测给定任务的工具的可行性。为了模仿人类使用工具的经验，可行性标签是通过模拟到达任务的试错过程获得的。我们发现，通过采用激活最大化步骤，模型可以为给定任务合成适当的工具，准确率高。此外，工具合成过程表明，在学习到的潜空间中存在一个与任务相关的轨迹，可以通过训练有素的可供性预测器找到。 本论文的第二部分聚焦于开发新颖的OCGMs及其在机器人任务中的应用。我们首先介绍一个部署到机器人操控数据集中的2D OCGM，在模拟和现实世界场景中均有应用。尽管机器人臂和对象之间存在密集的交互，我们发现模型在没有任何人类监督的情况下从原始观测中发现有意义的对象实体。接下来，我们将2D OCGM升级到3D，通过利用NeRFs作为解码器来显式建模对象和背景的3D几何形状。为了从其外观信息中分离对象的空间信息，我们提出了一种用于对象的无监督6D姿态估计的最小体积原则。考虑到场景中的遮挡，我们通过引入一个形状补全模块来想象姿态估计步骤之前未观察到的对象部分，进一步改进姿态估计。最终，我们成功地将模型应用于现实世界的机器人场景，并在包括3D重建、以对象为中心的潜在表示学习、对象重排的6D姿态估计等几项任务上，与几个基线进行了性能比较。我们发现，尽管是一种无监督方法，我们的模型在一系列不同的现实世界任务中都取得了改进的性能。

成为VIP会员查看完整内容

相关内容

牛津大学 (University of Oxford)

关注 31

牛津大学是一所英国研究型大学，也是罗素大学集团、英国“G5超级精英大学”，欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人，包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月，泰晤士高等教育发布了2016-2017年度世界大学排名，其中牛津大学排名第一。

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

71+阅读 · 2024年1月13日

【博士论文】开放环境中分布外检测与表示学习：算法与理论，301页pdf

专知会员服务

48+阅读 · 2024年1月7日

【博士论文】可解释深度学习的结构化表示,119页pdf

专知会员服务

69+阅读 · 2023年12月18日

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

专知会员服务

74+阅读 · 2023年10月6日