论文浅尝 | 端到端神经视觉问答之上的显式推理

2018 年 6 月 28 日 开放知识图谱


链接:http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf

 

概述


视觉问答(Visual Question Answering)现有两大类主流的问题, 一是基于图片的视觉问答(ImageQuestion Answering), 二是基于视频的视觉问答( Video Question Answering).而后者在实际处理过程中, 常常按固定时间间隔取帧,将视频离散化成图片(frame)的序列,剔除大量冗余的信息, 以节省内存.

 

当前视觉问答的研究主要关注以下三个部分:

  1. 延续自然语言处理中, 对注意力机制(Attention Mechanism) 和记忆网络(Memory Network) 的研究,旨在通过改进二者提高模型对文本和图像信息的表达能力,通过更丰富的分布式表示来提升模型的精度.另一方面,也可以视作是对神经计算机(Neural Machine) 其中键值模块(Key-value, 对应注意力)和缓存模块(Cache, 对应记忆网络)的改进.

  2. 密集地研究可解释性(Interpretability)和视觉推理(Visual Reasoning) . 对同领域多源异构数据,这类研究方向将问答视为一种检索或人机交互方式,希望模型能提供对交互结果(即答案)的来由解释.

  3. 将文本或图像, 以及在图像中抽取的一系列信息, 如场景图谱(SceneGraph), 图片标题(Image Caption)等视为是知识来源”, 在给定一个问题时,如何综合考虑所有的知识,并推断出最后的答案.

文章开头提到的论文,便是朝着第三个方向再迈进一步.


模型


本文提出的主要模型,是一个基于一阶谓词概率软逻辑(Probabilistic Soft Logic)的显式推理机. 如果你已经训练好了一个用于视觉问答的神经网络模型,那么这个显式推理机可以根据模型的输出结果, 综合考虑信息后,更正原本模型的输出结果. 这样的后处理能提升模型的精度.下图就是一个这样的例子.

1:一个正面例子

 

1 中红色六边形标示的 “PSL Engine”, 是显式推理的核心部分.通过这一个部分, “VQA” 的预测结果与” Visual Relation(视觉关系)”,“Question Relation(问题关键词关系)””Phrasal Knowledge(语言常识)”三部分信息综合起来,进行推理, 更新答案. 此处是一个正向例子.

            推理过程具体如下:

  1. 生成 VQA 答案: 存在一个视觉问答的神经网络模型, 对于这幅图片和相应问题,预测出最有可能的答案是:教堂(church) 谷仓(barn).

  2. 生成Visual Relation: 通过利用Dense Captioning system(Johnson, Karpathy, and Fei-Fei 2016) 生成图片的文本描述, 再用Stanford Dependency Parsing(De Marneffe et al. 2006) 抽取生成描述中的关键词,再启发式的方法为关键词对添加上关系,构成三元组.这代表了从图片中抽取出有效的结构化信息.

  3. 生成 Question Relation: 再次使用StanfordDependency Parsing及启发式方法抽取问题中包含的三元组信息.

  4. 生成 Phrasal Knowledge: 将所有相关关键词在ConceptNet 和词向量中索引,并计算相似度.

  5. 由概率软逻辑推理引擎综合前面四步生成的所有信息, 更新 VQA 答案对应的得分,并重新排序,得到新的结果.

 

在推理过程中,使用了概率软逻辑, 来综合考量各种生成的事实. 其核心思想是: 由谓词和变元组成的命题, 真值不在局限于10(真或假), 而是可以在闭区间[0, 1]上取值. 一个简单的例子是:

“XY是朋友关系且Y Z投票, 蕴含X Z 投票的权重是0.3. “XY是伴侣关系且YZ投票, 蕴含X Z 投票的权重是0.8. 回到本文的例子, 综合所有生成的命题并进行推理的过程如下:

在此, 命题的权重w_i 是需要学习的部分. 而优化的目标是使得满足最多条件的正确答案的权重最高.


实验


在数据集MSCOCO-VQA(Antol et al. 2015) 测试. 让我们看看效果:

 

2:实验结果中的 8 个例子

 

笔记整理:杨海宏,浙江大学博士,研究方向为知识问答与推理。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

登录查看更多
7

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
12+阅读 · 2020年4月28日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
注意力机制模型最新综述
专知会员服务
266+阅读 · 2019年10月20日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 基于图注意力的常识对话生成
开放知识图谱
8+阅读 · 2019年2月5日
论文浅尝 | 用可微的逻辑规则学习完成知识库推理
开放知识图谱
14+阅读 · 2018年7月5日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
7+阅读 · 2018年5月6日
Arxiv
3+阅读 · 2019年3月1日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
Top
微信扫码咨询专知VIP会员