视觉引导的常识知识获取 (Visually Grounded Commonsense Knowledge Acquisition) - 专知论文

会员服务 ·

0

常识知识 · 知识 · 常识知识获取 · 提取 · 知识获取 ·

2023 年 3 月 25 日

Visually Grounded Commonsense Knowledge Acquisition

翻译：视觉引导的常识知识获取

Yuan Yao,Tianyu Yu,Ao Zhang,Mengdi Li,Ruobing Xie,Cornelius Weber,Zhiyuan Liu,Hai-Tao Zheng,Stefan Wermter,Tat-Seng Chua,Maosong Sun

from arxiv, Accepted by AAAI 2023

Large-scale commonsense knowledge bases empower a broad range of AI applications, where the automatic extraction of commonsense knowledge (CKE) is a fundamental and challenging problem. CKE from text is known for suffering from the inherent sparsity and reporting bias of commonsense in text. Visual perception, on the other hand, contains rich commonsense knowledge about real-world entities, e.g., (person, can_hold, bottle), which can serve as promising sources for acquiring grounded commonsense knowledge. In this work, we present CLEVER, which formulates CKE as a distantly supervised multi-instance learning problem, where models learn to summarize commonsense relations from a bag of images about an entity pair without any human annotation on image instances. To address the problem, CLEVER leverages vision-language pre-training models for deep understanding of each image in the bag, and selects informative instances from the bag to summarize commonsense entity relations via a novel contrastive attention mechanism. Comprehensive experimental results in held-out and human evaluation show that CLEVER can extract commonsense knowledge in promising quality, outperforming pre-trained language model-based methods by 3.9 AUC and 6.4 mAUC points. The predicted commonsense scores show strong correlation with human judgment with a 0.78 Spearman coefficient. Moreover, the extracted commonsense can also be grounded into images with reasonable interpretability. The data and codes can be obtained at https://github.com/thunlp/CLEVER.

翻译：大规模的常识知识库为广泛的人工智能应用提供了支撑，而自动提取常识知识 (CKE) 是一个根本性且具有挑战性的问题。从文本中提取CKE因文本中常识的稀疏性和报告偏差而备受批评。而视觉感知则包含着丰富的关于现实世界实体的常识知识，比如（人，可以拿起，瓶子），这可以作为获取基于实物的常识知识的有利资源。在这项工作中，我们提出了CLEVER方法，将CKE表示为一种远程监督的多实例学习问题，其中模型从一组关于实体对的图片中学习总结常识关系，而不需要对图像实例进行任何人工标注。为了解决该问题，CLEVER利用视觉-语言预训练模型深度理解每个图像，并通过一种新颖的对比注意力机制从图片中选择有信息量的实例来总结常识实体关系。全面的实验结果和人类评估表明，CLEVER可以提取出具有良好质量的常识知识，并且胜过了基于预训练语言模型的方法，增加了3.9 AUC和6.4 mAUC点。预测的常识得分和人类判断之间存在着很强的相关性，spearman系数为0.78。此外，提取的常识知识还可以与图像相结合，并具有合理的可解释性。数据和代码可以在https://github.com/thunlp/CLEVER获取。

0

相关内容

常识知识

【AAAI2023】视觉辅助的常识知识获取

【AAAI2023】视觉辅助的常识知识获取

专知会员服务

16+阅读 · 2022年11月28日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

专知会员服务

61+阅读 · 2021年2月4日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

专知会员服务

65+阅读 · 2020年11月24日

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

专知会员服务

40+阅读 · 2020年5月4日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

专知会员服务

15+阅读 · 2019年10月23日

【AAAI2023】视觉辅助的常识知识获取

【AAAI2023】视觉辅助的常识知识获取

专知

1+阅读 · 2022年11月28日

EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型

EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型

PaperWeekly

4+阅读 · 2022年10月28日

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

开放知识图谱

4+阅读 · 2022年8月22日

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

专知

22+阅读 · 2020年11月24日

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

专知

23+阅读 · 2018年4月24日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

近红外高光谱-偏振激光雷达精细探测气溶胶的关键技术与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Perp在类风湿性关节炎外周Th17细胞存活中的作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

句子语境下的语音加工的神经机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于模糊拓扑及多特征融合的遥感影像亚像元定位

国家自然科学基金

0+阅读 · 2012年12月31日

低温等离子体净化处理有机挥发性气体基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

青少年首发抑郁症执行功能、DTI、fMRI变化及其病理机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

脂肪因子adiponutrin在肥胖、胰岛素抵抗和2型糖尿病发病机制中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Dual Semantic Knowledge Composed Multimodal Dialog Systems

Arxiv

0+阅读 · 2023年5月17日

Logic and Commonsense-Guided Temporal Knowledge Graph Completion

Arxiv

0+阅读 · 2023年5月15日

Benchmarks for Automated Commonsense Reasoning: A Survey

Arxiv

44+阅读 · 2023年2月22日

Knowledge Graph Embedding: A Survey from the Perspective of Representation Spaces

Arxiv

18+阅读 · 2022年11月7日

What is Event Knowledge Graph: A Survey

Arxiv

33+阅读 · 2021年12月31日

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Arxiv

17+阅读 · 2021年6月25日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

A Survey on Knowledge Graphs: Representation, Acquisition and Applications

Arxiv

93+阅读 · 2020年2月2日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

VIP会员

文章信息

相关主题

常识知识获取

相关VIP内容

【AAAI2023】视觉辅助的常识知识获取

【AAAI2023】视觉辅助的常识知识获取

专知会员服务

16+阅读 · 2022年11月28日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

【AAAI2021教程】常识知识获取与表示，USC/斯坦福等学者讲述，250页ppt

专知会员服务

61+阅读 · 2021年2月4日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

专知会员服务

65+阅读 · 2020年11月24日

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

专知会员服务

40+阅读 · 2020年5月4日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

专知会员服务

15+阅读 · 2019年10月23日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【AAAI2023】视觉辅助的常识知识获取

【AAAI2023】视觉辅助的常识知识获取

专知

1+阅读 · 2022年11月28日

EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型

EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型

PaperWeekly

4+阅读 · 2022年10月28日

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

论文浅尝 | 预训练单模态和多模态模型中的视觉常识

开放知识图谱

4+阅读 · 2022年8月22日

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

近期必读的五篇 EMNLP 2020【知识图谱补全】相关论文和代码

专知

22+阅读 · 2020年11月24日

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

专知

23+阅读 · 2018年4月24日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Dual Semantic Knowledge Composed Multimodal Dialog Systems

Arxiv

0+阅读 · 2023年5月17日

Logic and Commonsense-Guided Temporal Knowledge Graph Completion

Arxiv

0+阅读 · 2023年5月15日

Benchmarks for Automated Commonsense Reasoning: A Survey

Arxiv

44+阅读 · 2023年2月22日

Knowledge Graph Embedding: A Survey from the Perspective of Representation Spaces

Arxiv

18+阅读 · 2022年11月7日

What is Event Knowledge Graph: A Survey

Arxiv

33+阅读 · 2021年12月31日

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Arxiv

17+阅读 · 2021年6月25日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

A Survey on Knowledge Graphs: Representation, Acquisition and Applications

Arxiv

93+阅读 · 2020年2月2日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

相关基金

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

近红外高光谱-偏振激光雷达精细探测气溶胶的关键技术与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Perp在类风湿性关节炎外周Th17细胞存活中的作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

句子语境下的语音加工的神经机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于模糊拓扑及多特征融合的遥感影像亚像元定位

国家自然科学基金

0+阅读 · 2012年12月31日

低温等离子体净化处理有机挥发性气体基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

青少年首发抑郁症执行功能、DTI、fMRI变化及其病理机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

脂肪因子adiponutrin在肥胖、胰岛素抵抗和2型糖尿病发病机制中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员