【博士论文】视觉语言交互中的视觉推理研究

2021 年 12 月 1 日 专知

来自中国人民大学牛玉磊的博士论文,入选2021年度“CCF优秀博士学位论文奖”初评名单!

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml


语言交互中的视觉推理研究


视觉语言是计算机视觉与自然语言处理的交叉领域,对机器的感知和认知 能力均有较高的要求。随着深度学习的发展和计算能力的提高,机器的感知能 力得到了显著提升,研究者们开始探索机器的认知能力,尤其是推理能力。本 文从知识建模和知识推断两个方面入手,对视觉语言交互任务中的视觉推理问 题进行研究。其中,知识建模指通过模型的构建,从视觉媒介和自然语言中提 取视觉和语言知识,并进行特征表示;知识推断指机器对视觉和语言两个模态 的知识进行综合考虑,并进行无偏的推断与估计。 


对于知识建模而言,本文通过单轮交互和多轮交互两个场景,分别选取指 称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语 理解任务而言,机器需要从图像中对自然语言描述的目标物体进行定位。本文 提出了变分背景框架,借助背景建模的思想,对自然语言指代的目标和其背景 信息的共生关系进行建模,通过候选目标对语义背景进行估计,并基于估计出 的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言,机器 需要结合图像及多轮对话历史,对当前问题进行回答。本文提出了递归视觉注 意力机制,借助于视觉指代消解的思想,希望机器模拟人的思维方式,以递归 的形式对对话历史进行回顾,并以视觉注意力机制的方式聚焦在与话题相关的 视觉物体上。 


对于知识推断而言,视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容,对问题进行回答。视觉问答模型可能会过多地关 注问题和答案之间的联系,从而缺少了对图像内容的关注。不同于传统的基于 统计相关性的模型,本文提出了反事实视觉问答框架,从因果效应的视角出发, 借助因果推断中的反事实思维,通过单一语言分支显式地对语言相关性进行建 模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应,有 效地克服了视觉问答模型对语言偏差的依赖。





专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“VLIR” 就可以获取【博士论文】视觉语言交互中的视觉推理研究》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
36+阅读 · 2021年8月5日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
31+阅读 · 2021年3月17日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
专知会员服务
65+阅读 · 2020年12月24日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
VIP会员
相关VIP内容
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
36+阅读 · 2021年8月5日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
31+阅读 · 2021年3月17日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
专知会员服务
65+阅读 · 2020年12月24日
相关基金
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员