一个机器人要想在非结构化的室外环境中与人类高效合作,就必须将指令从操作者直观的模态转化为行动。机器人必须能够像人类一样感知世界,这样机器人所采取的行动才能反映自然语言和人类感知的细微差别。传统上,导航系统结合了个人感知、语言处理和规划块,这些块通常是根据不同的性能规格单独训练的。它们使用限制性接口进行通信以简化开发(即,具有离散属性的点对象和有限的命令语言),但这也限制了一个模块可以传递给另一个模块的信息。
深度学习的巨大成功彻底改变了计算机视觉的传统研究方向,如目标检测和场景标记。视觉问答(VQA)将自然语言处理中的最先进技术与图像理解联系起来。符号基础、多步骤推理和对空间关系的理解已经是这些系统的元素。这些元素统一在一个具有单一可微损失的架构中,消除了模块之间定义良好接口的需要,并简化了与之相伴的假设。我们介绍了一种将文本语言命令和静态航空图像转换为适合规划的成本图的技术。我们建立在FiLM VQA架构的基础上,对其进行调整以生成成本图,并将其与修改后的可微分计划损失(最大边际计划)结合起来使用Field D*计划器。通过这种架构,我们向统一语言、感知和规划到单一的端到端可训练系统迈出了一步。
我们提出了一个源自CLEVR数据集的可扩展综合基准测试,我们用它来研究算法在无偏倚环境中具有几乎无限数据的理解能力。我们分析了该算法在这些数据上的表现,以了解其局限性,并提出未来的工作来解决其缺点。我们使用真实的航空图像和合成命令提供混合数据集的结果。规划算法通常具有高分支因子,并且不能很好地映射到近年来催化深度学习发展的GPU。我们精心选择了Field D和Max Margin Planning,以在高度并行的架构上表现良好。我们引入了一个适用于多GPU数据并行训练的Field D版本,它使用Bellman-Ford算法,与我们的cpu优化实现相比,性能几乎提高了十倍。在团队中工作的人之间的流畅互动取决于对任务、环境和语言微妙之处的共同理解。在这种情况下工作的机器人也必须这样做。学习将命令和图像转换为具有可微分规划损失的轨迹是捕捉和模仿人类行为的一种方法,也是实现机器人和人类无缝交互的一小步。