【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习 - 专知VIP

会员服务 ·

15

AAAI 2022 · 视觉常识推理 · Transformer · 论文 ·

2021 年 12 月 20 日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

回答关于图像的复杂问题是机器智能的一个雄心勃勃的目标，它需要对图像、文本和常识的联合理解，以及强大的推理能力。最近，多模态变换器在视觉常识推理(Visual Commonsense Reasoning, VCR)任务上取得了很大的进展，通过跨通道注意力层共同理解视觉对象和文本标记。然而，这些方法并没有利用场景的丰富结构和对象之间的交互作用，而这些在回答复杂的常识问题时是必不可少的。我们提出了一个场景图增强图像-文本学习(SGEITL)框架，将视觉场景图纳入常识推理。为了利用场景图结构，在模型结构层次上，我们提出了一种多跳图转换器来正则化各跳间的注意力交互。在预训练方面，提出了一种场景感知的预训练方法，利用视觉场景图中提取的结构知识。此外，我们还介绍了一种使用文本注释在弱监督方式下训练和生成领域相关视觉场景图的方法。在VCR和其他任务上的大量实验表明，与最先进的方法相比，性能有显著提高，并证明了所提出的每个组件的有效性。

https://www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

成为VIP会员查看完整内容

50

相关内容

AAAI 2022

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

专知会员服务

17+阅读 · 2022年2月7日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知会员服务

22+阅读 · 2021年2月17日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

专知会员服务

38+阅读 · 2021年1月3日

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

专知会员服务

18+阅读 · 2020年12月25日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

新智元

4+阅读 · 2018年8月8日

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

全球人工智能

7+阅读 · 2018年4月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

One-shot Scene Graph Generation

Arxiv

0+阅读 · 2022年2月22日

(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering

Arxiv

4+阅读 · 2022年2月18日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Involution: Inverting the Inherence of Convolution for Visual Recognition

Arxiv

6+阅读 · 2021年3月10日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

VIP会员

相关主题

视觉常识推理

相关VIP内容

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

专知会员服务

17+阅读 · 2022年2月7日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知会员服务

22+阅读 · 2021年2月17日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

专知会员服务

38+阅读 · 2021年1月3日

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

专知会员服务

18+阅读 · 2020年12月25日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

新智元

4+阅读 · 2018年8月8日

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

全球人工智能

7+阅读 · 2018年4月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关论文

One-shot Scene Graph Generation

Arxiv

0+阅读 · 2022年2月22日

(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering

Arxiv

4+阅读 · 2022年2月18日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Involution: Inverting the Inherence of Convolution for Visual Recognition

Arxiv

6+阅读 · 2021年3月10日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

微信扫码咨询专知VIP会员