人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能代理。视觉-语言导航(vision - and- language Navigation, VLN)是一个面向这一目标的基础和跨学科的研究课题,越来越受到自然语言处理、计算机视觉、机器人和机器学习等领域的关注。本文综述了VLN这一新兴领域的最新研究成果,包括任务、评价指标、方法等。通过对当前进展和挑战的结构化分析,我们强调了当前VLN的局限性和未来工作的机遇。本文为VLN研究界提供了一个彻底的参考