回答关于图像的复杂问题是机器智能的一个雄心勃勃的目标,它需要对图像、文本和常识的联合理解,以及强大的推理能力。最近,多模态变换器在视觉常识推理(Visual Commonsense Reasoning, VCR)任务上取得了很大的进展,通过跨通道注意力层共同理解视觉对象和文本标记。然而,这些方法并没有利用场景的丰富结构和对象之间的交互作用,而这些在回答复杂的常识问题时是必不可少的。我们提出了一个场景图增强图像-文本学习(SGEITL)框架,将视觉场景图纳入常识推理。为了利用场景图结构,在模型结构层次上,我们提出了一种多跳图转换器来正则化各跳间的注意力交互。在预训练方面,提出了一种场景感知的预训练方法,利用视觉场景图中提取的结构知识。此外,我们还介绍了一种使用文本注释在弱监督方式下训练和生成领域相关视觉场景图的方法。在VCR和其他任务上的大量实验表明,与最先进的方法相比,性能有显著提高,并证明了所提出的每个组件的有效性。

https://www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

成为VIP会员查看完整内容
48

相关内容

【AAAI2022】(2.5+1)D时空场景图用于视频问答
专知会员服务
23+阅读 · 2022年2月21日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
19+阅读 · 2021年12月19日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【AAAI2021】基于内容迁移的无监督领域自适应语义分割
专知会员服务
17+阅读 · 2020年12月25日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
60+阅读 · 2020年12月3日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Arxiv
0+阅读 · 2022年2月22日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关VIP内容
【AAAI2022】(2.5+1)D时空场景图用于视频问答
专知会员服务
23+阅读 · 2022年2月21日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
19+阅读 · 2021年12月19日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【AAAI2021】基于内容迁移的无监督领域自适应语义分割
专知会员服务
17+阅读 · 2020年12月25日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
60+阅读 · 2020年12月3日
微信扫码咨询专知VIP会员