Answering complex questions about images is an ambitious goal for machine intelligence, which requires a joint understanding of images, text, and commonsense knowledge, as well as a strong reasoning ability. Recently, multimodal Transformers have made great progress in the task of Visual Commonsense Reasoning (VCR), by jointly understanding visual objects and text tokens through layers of cross-modality attention. However, these approaches do not utilize the rich structure of the scene and the interactions between objects which are essential in answering complex commonsense questions. We propose a Scene Graph Enhanced Image-Text Learning (SGEITL) framework to incorporate visual scene graphs in commonsense reasoning. To exploit the scene graph structure, at the model structure level, we propose a multihop graph transformer for regularizing attention interaction among hops. As for pre-training, a scene-graph-aware pre-training method is proposed to leverage structure knowledge extracted in the visual scene graph. Moreover, we introduce a method to train and generate domain-relevant visual scene graphs using textual annotations in a weakly-supervised manner. Extensive experiments on VCR and other tasks show a significant performance boost compared with the state-of-the-art methods and prove the efficacy of each proposed component.


翻译:解答图像的复杂问题是机器智能的一个雄心勃勃的目标,它要求共同理解图像、文本和常识知识,以及强大的推理能力。最近,多式联运变异器在视觉常识理性(VCR)任务中取得了巨大进展,通过多层次的交叉模式关注,共同理解视觉对象和文字符号。然而,这些方法并不利用对回答复杂的常见问题至关重要的场景结构的丰富结构和对象之间的相互作用。我们提议了一个场景图集强化图像-文字学习(SGEITL)框架,将视觉场景图集纳入常识推理。为了在模型结构一级利用场景图结构结构结构结构结构结构结构,我们提议了一个多动画图变异器,使跳楼之间的注意力互动正规化。在培训前,提出了一种场景图集预培训方法,以利用在视觉场景图中提取的知识结构。此外,我们采用了一种方法,用微调方式用文字图解来培训和生成与域有关的视觉图示图。在VCRR和其他任务中进行广泛的实验,并用每个拟议中的效能显示显著的推力,与州图集比较。

11
下载
关闭预览

相关内容

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年11月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Arxiv
3+阅读 · 2020年11月26日
Bridging Knowledge Graphs to Generate Scene Graphs
Arxiv
5+阅读 · 2020年1月7日
VIP会员
相关资讯
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年11月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员