语言交互中的视觉推理研究

视觉语言是计算机视觉与自然语言处理的交叉领域,对机器的感知和认知 能力均有较高的要求。随着深度学习的发展和计算能力的提高,机器的感知能 力得到了显著提升,研究者们开始探索机器的认知能力,尤其是推理能力。本 文从知识建模和知识推断两个方面入手,对视觉语言交互任务中的视觉推理问 题进行研究。其中,知识建模指通过模型的构建,从视觉媒介和自然语言中提 取视觉和语言知识,并进行特征表示;知识推断指机器对视觉和语言两个模态 的知识进行综合考虑,并进行无偏的推断与估计。

对于知识建模而言,本文通过单轮交互和多轮交互两个场景,分别选取指 称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语 理解任务而言,机器需要从图像中对自然语言描述的目标物体进行定位。本文 提出了变分背景框架,借助背景建模的思想,对自然语言指代的目标和其背景 信息的共生关系进行建模,通过候选目标对语义背景进行估计,并基于估计出 的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言,机器 需要结合图像及多轮对话历史,对当前问题进行回答。本文提出了递归视觉注 意力机制,借助于视觉指代消解的思想,希望机器模拟人的思维方式,以递归 的形式对对话历史进行回顾,并以视觉注意力机制的方式聚焦在与话题相关的 视觉物体上。

对于知识推断而言,视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容,对问题进行回答。视觉问答模型可能会过多地关 注问题和答案之间的联系,从而缺少了对图像内容的关注。不同于传统的基于 统计相关性的模型,本文提出了反事实视觉问答框架,从因果效应的视角出发, 借助因果推断中的反事实思维,通过单一语言分支显式地对语言相关性进行建 模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应,有 效地克服了视觉问答模型对语言偏差的依赖。

成为VIP会员查看完整内容
58

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
31+阅读 · 2021年3月17日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
Arxiv
12+阅读 · 2019年2月26日
VIP会员
相关VIP内容
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
31+阅读 · 2021年3月17日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
微信扫码咨询专知VIP会员