本文提出了一个基于transformer的框架,通过建立文本关联的判别性特征和多阶段跨模态推理来实现准确的视觉定位(visual grounding)。具体来说,我们设计了一个视觉-语言验证模块(visual-linguistic verification module),使视觉特征关注于文本描述相关的区域,并抑制其它无关区域。同时我们还设计了一个语言指导的特征编码器(language-guided feature encoder)来聚合目标的视觉上下文,提高其特征辨别性。为了从建立的视觉特征中检索出目标,我们进一步提出了一种多阶段的跨模态解码器(multi-stage cross-modal decoder)来迭代推理图像和语言之间的相关性,从而准确定位目标。我们在RefCOCO、RefCOCO+和 RefCOCOg数据集上进行了实验,并取得了state-of-the-art的性能。
作者:Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, and Weiming Hu