【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

一个机器人要想在非结构化的室外环境中与人类高效合作，就必须将指令从操作者直观的模态转化为行动。机器人必须能够像人类一样感知世界，这样机器人所采取的行动才能反映自然语言和人类感知的细微差别。传统上，导航系统结合了个人感知、语言处理和规划块，这些块通常是根据不同的性能规格单独训练的。它们使用限制性接口进行通信以简化开发(即，具有离散属性的点对象和有限的命令语言)，但这也限制了一个模块可以传递给另一个模块的信息。

深度学习的巨大成功彻底改变了计算机视觉的传统研究方向，如目标检测和场景标记。视觉问答(VQA)将自然语言处理中的最先进技术与图像理解联系起来。符号基础、多步骤推理和对空间关系的理解已经是这些系统的元素。这些元素统一在一个具有单一可微损失的架构中，消除了模块之间定义良好接口的需要，并简化了与之相伴的假设。我们介绍了一种将文本语言命令和静态航空图像转换为适合规划的成本图的技术。我们建立在FiLM VQA架构的基础上，对其进行调整以生成成本图，并将其与修改后的可微分计划损失(最大边际计划)结合起来使用Field D*计划器。通过这种架构，我们向统一语言、感知和规划到单一的端到端可训练系统迈出了一步。

我们提出了一个源自CLEVR数据集的可扩展综合基准测试，我们用它来研究算法在无偏倚环境中具有几乎无限数据的理解能力。我们分析了该算法在这些数据上的表现，以了解其局限性，并提出未来的工作来解决其缺点。我们使用真实的航空图像和合成命令提供混合数据集的结果。规划算法通常具有高分支因子，并且不能很好地映射到近年来催化深度学习发展的GPU。我们精心选择了Field D和Max Margin Planning，以在高度并行的架构上表现良好。我们引入了一个适用于多GPU数据并行训练的Field D版本，它使用Bellman-Ford算法，与我们的cpu优化实现相比，性能几乎提高了十倍。在团队中工作的人之间的流畅互动取决于对任务、环境和语言微妙之处的共同理解。在这种情况下工作的机器人也必须这样做。学习将命令和图像转换为具有可微分规划损失的轨迹是捕捉和模仿人类行为的一种方法，也是实现机器人和人类无缝交互的一小步。

成为VIP会员查看完整内容

相关内容

卡内基梅隆大学 (Carnegie Mellon University)

关注 0

卡耐基梅隆大学（Carnegie Mellon University）坐落在宾夕法尼亚州的匹兹堡，是一所享誉世界的私立顶级研究型大学，学校面积不大，学科门类不多，但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

62+阅读 · 2022年11月27日

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

专知会员服务

13+阅读 · 2022年11月25日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日