人工智能研究的长期目标是构建能够看到我们周围丰富视觉环境的智能体,用自然语言将这种理解传达给人类和其他智能体,并在物理或具身环境中行动。为此,计算机视觉和自然语言处理的最新进展取得了巨大的进展——从生成图像/视频的自然语言描述,到回答有关图像/视频的问题,再到就视觉内容进行自由形式的对话。
最近,在计算机视觉、自然语言处理和机器人领域,具身人工智能(即训练具身代理在自我中心感知中执行各种任务)吸引了大量的兴趣。视觉语言导航(VLN)是由Anderson和Wu等人提出的嵌入式人工智能的一个基本主题。
在本教程中,我们将不仅涵盖视觉和语言研究前沿的最新方法和原则,还将对VLN领域进行全面概述。