【博士论文】视觉语言交互中的视觉推理研究 - 专知

会员服务 ·

0

【博士论文】视觉语言交互中的视觉推理研究

2021 年 12 月 1 日 专知

来自中国人民大学牛玉磊的博士论文，入选2021年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

语言交互中的视觉推理研究

视觉语言是计算机视觉与自然语言处理的交叉领域，对机器的感知和认知能力均有较高的要求。随着深度学习的发展和计算能力的提高，机器的感知能力得到了显著提升，研究者们开始探索机器的认知能力，尤其是推理能力。本文从知识建模和知识推断两个方面入手，对视觉语言交互任务中的视觉推理问题进行研究。其中，知识建模指通过模型的构建，从视觉媒介和自然语言中提取视觉和语言知识，并进行特征表示；知识推断指机器对视觉和语言两个模态的知识进行综合考虑，并进行无偏的推断与估计。

对于知识建模而言，本文通过单轮交互和多轮交互两个场景，分别选取指称语理解和视觉对话两个代表性任务进行阐述。对于单轮交互情形下的指称语理解任务而言，机器需要从图像中对自然语言描述的目标物体进行定位。本文提出了变分背景框架，借助背景建模的思想，对自然语言指代的目标和其背景信息的共生关系进行建模，通过候选目标对语义背景进行估计，并基于估计出的语义背景对指代目标进行定位。对于多轮交互情形下的视觉对话而言，机器需要结合图像及多轮对话历史，对当前问题进行回答。本文提出了递归视觉注意力机制，借助于视觉指代消解的思想，希望机器模拟人的思维方式，以递归的形式对对话历史进行回顾，并以视觉注意力机制的方式聚焦在与话题相关的视觉物体上。

对于知识推断而言，视觉问答是视觉语言领域中存在知识偏差的典型问题。视觉问答需要结合图像内容，对问题进行回答。视觉问答模型可能会过多地关注问题和答案之间的联系，从而缺少了对图像内容的关注。不同于传统的基于统计相关性的模型，本文提出了反事实视觉问答框架，从因果效应的视角出发，借助因果推断中的反事实思维，通过单一语言分支显式地对语言相关性进行建模。通过从问题和图像的总体因果效应中去除问题对答案的直接因果效应，有效地克服了视觉问答模型对语言偏差的依赖。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VLIR” 就可以获取《【博士论文】视觉语言交互中的视觉推理研究》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

2

相关内容

视觉推理

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

计算知识视觉：迈向智能视觉推理的新范式

专知会员服务

37+阅读 · 2021年8月5日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

开放知识图谱

0+阅读 · 2021年10月16日

论文浅尝 | IRW：基于知识图谱和关系推理的视觉叙事框架

论文浅尝 | IRW：基于知识图谱和关系推理的视觉叙事框架

开放知识图谱

1+阅读 · 2021年10月11日

基于视觉和语言的跨媒体问答与推理研究综述

基于视觉和语言的跨媒体问答与推理研究综述

专知

5+阅读 · 2021年3月17日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知

22+阅读 · 2019年10月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于视觉的智能机器人场景理解方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于视觉皮层信息处理机制的行人检测与行为识别

国家自然科学基金

0+阅读 · 2013年12月31日

人群活动理解中基于时空共现模型的交互动作识别研究

国家自然科学基金

1+阅读 · 2013年12月31日

复杂场景视觉注意对象分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多示例学习的视觉注意建模及应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的视觉注意计算模型及应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于视感知的图像视频语义获取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于生物视觉机制的语义图像检索模型及方法

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Causality-based Neural Network Repair

Arxiv

0+阅读 · 2022年4月20日

CBR-iKB: A Case-Based Reasoning Approach for Question Answering over Incomplete Knowledge Bases

Arxiv

0+阅读 · 2022年4月18日

Natural Language Descriptions of Deep Visual Features

Arxiv

0+阅读 · 2022年4月18日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Hierarchical Graph Capsule Network

Hierarchical Graph Capsule Network

Arxiv

20+阅读 · 2020年12月16日

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion

Arxiv

17+阅读 · 2020年10月19日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

Ripple Network: Propagating User Preferences on the Knowledge Graph for Recommender Systems

Arxiv

12+阅读 · 2018年3月9日

DKN: Deep Knowledge-Aware Network for News Recommendation

Arxiv

22+阅读 · 2018年1月30日

VIP会员

相关主题

CCF优秀博士学位论文奖

中国计算机学会(CCF)

相关VIP内容

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

计算知识视觉：迈向智能视觉推理的新范式

专知会员服务

37+阅读 · 2021年8月5日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

开放知识图谱

0+阅读 · 2021年10月16日

论文浅尝 | IRW：基于知识图谱和关系推理的视觉叙事框架

论文浅尝 | IRW：基于知识图谱和关系推理的视觉叙事框架

开放知识图谱

1+阅读 · 2021年10月11日

基于视觉和语言的跨媒体问答与推理研究综述

基于视觉和语言的跨媒体问答与推理研究综述

专知

5+阅读 · 2021年3月17日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知

22+阅读 · 2019年10月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

相关基金

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于视觉的智能机器人场景理解方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于视觉皮层信息处理机制的行人检测与行为识别

国家自然科学基金

0+阅读 · 2013年12月31日

人群活动理解中基于时空共现模型的交互动作识别研究

国家自然科学基金

1+阅读 · 2013年12月31日

复杂场景视觉注意对象分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多示例学习的视觉注意建模及应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的视觉注意计算模型及应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于视感知的图像视频语义获取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于生物视觉机制的语义图像检索模型及方法

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

Causality-based Neural Network Repair

Arxiv

0+阅读 · 2022年4月20日

CBR-iKB: A Case-Based Reasoning Approach for Question Answering over Incomplete Knowledge Bases

Arxiv

0+阅读 · 2022年4月18日

Natural Language Descriptions of Deep Visual Features

Arxiv

0+阅读 · 2022年4月18日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Hierarchical Graph Capsule Network

Hierarchical Graph Capsule Network

Arxiv

20+阅读 · 2020年12月16日

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion

Arxiv

17+阅读 · 2020年10月19日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

Ripple Network: Propagating User Preferences on the Knowledge Graph for Recommender Systems

Arxiv

12+阅读 · 2018年3月9日

DKN: Deep Knowledge-Aware Network for News Recommendation

Arxiv

22+阅读 · 2018年1月30日

大家都在搜

久别重逢话双塔

CMU博士论文

无人机集群

国防科技创新

软件无线电

再见，TD-SCDMA！

微信扫码咨询专知VIP会员