语言交互中的视觉推理研究
视觉语言是计算机视觉与自然语言处理的交叉领域,对机器的感知和认知 能力均有较高的要求。随着深度学习的发展和计算能力的提高,机器的感知能 力得到了显著提升,研究者们开始探索机器的认知能力,尤其是推理能力。本 文从知识建模和知识推断两个方面入手,对视觉语言交互任务中的视觉推理问 题进行研究。其中,知识建模指通过模型的构建,从视觉媒介和自然语言中提 取视觉和语言知识,并进行特征表示;知识推断指机器对视觉和语言两个模态 的知识进行综合考虑,并进行无偏的推断与估计。
对于知识建模而言,本文通过单轮交互和多轮交互两个场景,分别选取指 称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语 理解任务而言,机器需要从图像中对自然语言描述的目标物体进行定位。本文 提出了变分背景框架,借助背景建模的思想,对自然语言指代的目标和其背景 信息的共生关系进行建模,通过候选目标对语义背景进行估计,并基于估计出 的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言,机器 需要结合图像及多轮对话历史,对当前问题进行回答。本文提出了递归视觉注 意力机制,借助于视觉指代消解的思想,希望机器模拟人的思维方式,以递归 的形式对对话历史进行回顾,并以视觉注意力机制的方式聚焦在与话题相关的 视觉物体上。
对于知识推断而言,视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容,对问题进行回答。视觉问答模型可能会过多地关 注问题和答案之间的联系,从而缺少了对图像内容的关注。不同于传统的基于 统计相关性的模型,本文提出了反事实视觉问答框架,从因果效应的视角出发, 借助因果推断中的反事实思维,通过单一语言分支显式地对语言相关性进行建 模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应,有 效地克服了视觉问答模型对语言偏差的依赖。