近年来,人工智能研究取得了令人难以置信的发展和进步。这些进展主要是在三个方面取得的:计算机视觉、自然语言处理和机器人技术。例如,图像识别被广泛认为是计算机视觉的圣杯,而语言建模和翻译则是自然语言处理的基本任务。然而,许多实际的应用程序和任务需要解决的不仅仅是这些特定于领域的问题,而是需要解决同时涉及所有三个领域的问题。一个自主系统不仅需要能够识别图像中的物体,还需要能够解释自然语言描述或命令,并理解它们如何与其感知到的视觉观察相关联。此外,机器人需要利用这些信息来做决策,并决定采取哪些物理行动来完成任务。在本文的第一部分中,我提出了一种学习如何将自然语言和3D形状联系起来的方法,这样系统就可以将文本描述中描述的单词(如“round”)与3D对象中圆形的几何属性联系起来。为了将这两种模式联系起来,我们依赖一个跨模态嵌入空间来进行多模态推理,并在没有细粒度的属性级分类注释的情况下学习这个空间。通过学习如何将这两种模态联系起来,我们可以执行文本到形状的检索和形状操作等任务,也可以执行新的任务,如文本到形状的生成。在本论文的第二部分中,我们允许代理被嵌入并探索一个依赖于所有三个领域(计算机视觉、自然语言和机器人)的任务:通过遵循自然语言指令进行机器人导航。与依赖固定的图像或3D对象数据集不同,代理现在位于一个物理环境中,并使用机载摄像机捕捉自己对空间的视觉观察。为了把视觉、语言和机器人的物理状态联系起来,我们提出了一个使用拓形图进行规划和控制的系统。这种基本的抽象允许主体将语言指令的部分与环境的相关空间区域联系起来,并将一系列的视觉观察与物理运动和动作联系起来