近年来,人工智能研究取得了惊人的发展和进步。这些进步主要是在三个方面取得的:计算机视觉、自然语言处理和机器人技术。例如,图像识别被广泛认为是计算机视觉的圣杯,而语言建模和翻译一直是自然语言处理的基本任务。然而,许多实际应用程序和任务需要解决的不仅仅是这些特定于领域的问题,而是需要解决涉及所有三个领域的问题。一个自主系统不仅需要能够识别图像中的物体,而且还需要解释自然语言的描述或命令,并理解它们如何与它所感知的视觉观察相关联。此外,机器人需要利用这些信息进行决策,并决定为了完成任务而采取哪些物理行动。在本文的第一部分,我提出了一种学习如何将自然语言与三维形状联系起来的方法,使系统能够将文本描述中描述的“圆”等词与三维物体中的圆的几何属性进行连接。为了将这两种模式联系起来,我们依赖一个跨模态嵌入空间来进行多模态推理,并在没有细粒度、属性级分类注释的情况下学习这个空间。通过学习如何将这两种模态联系起来,我们可以执行诸如文本到形状的检索和形状操作等任务,还可以实现新的任务,如文本到形状的生成。在本论文的第二部分,我们允许主体被具体化,并探索一个依赖于所有三个领域(计算机视觉、自然语言和机器人)的任务:机器人导航通过遵循自然语言指令。不再依赖于固定的图像或3D对象数据集,代理程序现在位于一个物理环境中,并使用机载相机捕捉自己对空间的视觉观察。为了在视觉、语言和机器人物理状态之间建立联系,我们提出了一个使用拓扑图执行规划和控制的系统。这种基本的抽象允许主体将语言指令的部分与环境的相关空间区域联系起来,并将一系列视觉观察与物理动作和行动联系起来。