【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习 - 专知

会员服务 ·

0

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

2021 年 12 月 20 日 专知

回答关于图像的复杂问题是机器智能的一个雄心勃勃的目标，它需要对图像、文本和常识的联合理解，以及强大的推理能力。最近，多模态变换器在视觉常识推理(Visual Commonsense Reasoning, VCR)任务上取得了很大的进展，通过跨通道注意力层共同理解视觉对象和文本标记。然而，这些方法并没有利用场景的丰富结构和对象之间的交互作用，而这些在回答复杂的常识问题时是必不可少的。我们提出了一个场景图增强图像-文本学习(SGEITL)框架，将视觉场景图纳入常识推理。为了利用场景图结构，在模型结构层次上，我们提出了一种多跳图转换器来正则化各跳间的注意力交互。在预训练方面，提出了一种场景感知的预训练方法，利用视觉场景图中提取的结构知识。此外，我们还介绍了一种使用文本注释在弱监督方式下训练和生成领域相关视觉场景图的方法。在VCR和其他任务上的大量实验表明，与最先进的方法相比，性能有显著提高，并证明了所提出的每个组件的有效性。

https://www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“GVCR” 就可以获取《【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习》专知下载链接

商务、投稿、技术等合作：请加微信助手:Quan_ABT, 或发邮件到bd@zhuanzhi.ai

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取7万+AI主题干货知识资料！

点击“ 阅读原文 ”，了解使用专知

登录查看更多

3

相关内容

场景图

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

专知会员服务

38+阅读 · 2021年1月3日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示

【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示

专知会员服务

23+阅读 · 2020年10月13日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知

3+阅读 · 2022年2月21日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向点击与视觉特征融合的结构化图像排序方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多义性码书学习和主题建模的图像语义分类技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于相机的低质量文本图像的复原与增强关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多层上下文关系的图像目标识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Sound-Guided Semantic Video Generation

Arxiv

0+阅读 · 2022年4月20日

Generating 3D Molecules for Target Protein Binding

Arxiv

0+阅读 · 2022年4月19日

Risk-Aware Learning for Scalable Voltage Optimization in Distribution Grids

Arxiv

0+阅读 · 2022年4月18日

BDG-Net: Boundary Distribution Guided Network for Accurate Polyp Segmentation

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

Arxiv

15+阅读 · 2021年5月19日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

13+阅读 · 2020年8月11日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

VIP会员

相关主题

视觉常识推理

通道注意力

相关VIP内容

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

24+阅读 · 2022年2月21日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

专知会员服务

38+阅读 · 2021年1月3日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示

【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示

专知会员服务

23+阅读 · 2020年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

人工智能时代背景下的未来海战

相关资讯

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知

3+阅读 · 2022年2月21日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

相关基金

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向点击与视觉特征融合的结构化图像排序方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多义性码书学习和主题建模的图像语义分类技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于相机的低质量文本图像的复原与增强关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多层上下文关系的图像目标识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

Sound-Guided Semantic Video Generation

Arxiv

0+阅读 · 2022年4月20日

Generating 3D Molecules for Target Protein Binding

Arxiv

0+阅读 · 2022年4月19日

Risk-Aware Learning for Scalable Voltage Optimization in Distribution Grids

Arxiv

0+阅读 · 2022年4月18日

BDG-Net: Boundary Distribution Guided Network for Accurate Polyp Segmentation

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

Arxiv

15+阅读 · 2021年5月19日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

13+阅读 · 2020年8月11日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

大家都在搜

大型语言模型

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员