主题: Grounding Natural Language for Building Embodied Agents
简介:
在过去的两年中,语言和视觉交叉领域出现了一些新的任务。其中最受欢迎的是2018年引入的视觉语言导航(VLN)任务。该任务将一个智能体随机放置在家中,并根据自然语言命令指示它们导航到目标目的地。要在这个领域取得成功,需要构建多模态语言地基,允许智能体成功地导航,同时对视觉语言动态进行推理。在MSR中,我们通过结合使用搜索、模仿学习和预训练的方法,显著地推动了这一领域的最新技术。关于VLN之类任务的基本假设是,我们将构建执行命令的智能体。我们训练这些智能体的方法是通过提供观察-操作元组的示例,将其转换为单向语言。我们训练我们的智能体执行我们的命令,但没有必要教智能体如何应对环境中的不确定性。在这个演讲,我将提出我们的最近在强化学习,模仿学习和VLN任务上的预训练方法方面的工作,并将我们的新思路转化为一个更一般的问题,以理解系统如何请求和接受帮助,从而探索视觉语言导航研究领域的技术转移和推广。
作者简介:
Asli Celikyilmaz是微软研究院首席研究员,主要研究兴趣在深度学习和自然语言处理领域,对长文本生成、自动摘要、改进编解码器模型、会话对话建模有更广泛的兴趣。