视觉语言导航(Vision Language Navigation)是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力,即减少智能体在不同环境中的泛化误差。
影响智能体泛化误差的主要原因是小规模数据和大导航空间之间的数据偏差。因此减少泛化误差的一个主要手段是数据增强,以往的工作提出了两种数据增强方法:场景内增强(Intra-scene Augmentation, ISA),Speaker-Follower[1]在已有场景中构建新的路径和指令;近场景增强(Near-scene Augmentation , NSA),EnvDrop[2]通过在场景中加入高斯噪声,在一定程度上突破了场景的局限性,但只是将场景扩展到了邻域。
图片
相比于原始训练集,三种数据增强方法对泛化误差影响的示意图。比起ISA和NSA,REM产生的增强数据更加偏离原有数据分布具有更强的降低泛化误差的能力。 为了解决这个问题,我们提出了一种场景间数据增强方法:随机环境混合(Random Environmental Mixup, REM)。REM 方法混合两个场景,在两个场景之间构建一个交叉连接的场景。与其他方法相比,它超越了场景本身的限制,在更广泛的数据分布下构建了增强数据。我们的实验表明,REM 产生的增强数据能将智能体导航的性能提高2个百分点以上。