Reasoning is a critical ability towards complete visual understanding. To develop machine with cognition-level visual understanding and reasoning abilities, the visual commonsense reasoning (VCR) task has been introduced. In VCR, given a challenging question about an image, a machine must answer correctly and then provide a rationale justifying its answer. The methods adopting the powerful BERT model as the backbone for learning joint representation of image content and natural language have shown promising improvements on VCR. However, none of the existing methods have utilized commonsense knowledge in visual commonsense reasoning, which we believe will be greatly helpful in this task. With the support of commonsense knowledge, complex questions even if the required information is not depicted in the image can be answered with cognitive reasoning. Therefore, we incorporate commonsense knowledge into the cross-modal BERT, and propose a novel Knowledge Enhanced Visual-and-Linguistic BERT (KVL-BERT for short) model. Besides taking visual and linguistic contents as input, external commonsense knowledge extracted from ConceptNet is integrated into the multi-layer Transformer. In order to reserve the structural information and semantic representation of the original sentence, we propose using relative position embedding and mask-self-attention to weaken the effect between the injected commonsense knowledge and other unrelated components in the input sequence. Compared to other task-specific models and general task-agnostic pre-training models, our KVL-BERT outperforms them by a large margin.


翻译:理性是完全视觉理解的关键能力。 要开发具有认知水平视觉理解和推理能力的机器, 已经引入了视觉常识推理( VCR) 任务 。 在 VCR 中, 由于对图像的问题颇具挑战性, 机器必须正确回答, 然后提供答案的理由。 采用强大的 BERT 模型作为学习图像内容和自然语言共同表述的支柱的方法显示VCR( VVL-BERT 用于短期) 取得了有希望的改进。 但是, 现有的方法都没有在视觉常识推理中使用常识知识, 我们认为这将对这项任务有很大的帮助。 在常识学知识的支持下, 即使所需的信息没有在图像中被描述, 复杂的问题也可以用认知推理回答。 因此, 我们把常识知识纳入跨模式 BERT, 并提议新的知识增强视觉和语言前语言表达( KVL-BERT ) 模型。 除了将视觉和语言内容作为投入, 从概念网络中提取的外部常识学知识融入多层次变变变工具。 为了将结构信息和 KMER 的大规模演算, 我们用常规变式模型来将常规变换常规变换模型, 。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
3+阅读 · 2019年10月18日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
VIP会员
相关VIP内容
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
已删除
将门创投
3+阅读 · 2019年10月18日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
Top
微信扫码咨询专知VIP会员