Large-scale commonsense knowledge bases empower a broad range of AI applications, where the automatic extraction of commonsense knowledge (CKE) is a fundamental and challenging problem. CKE from text is known for suffering from the inherent sparsity and reporting bias of commonsense in text. Visual perception, on the other hand, contains rich commonsense knowledge about real-world entities, e.g., (person, can_hold, bottle), which can serve as promising sources for acquiring grounded commonsense knowledge. In this work, we present CLEVER, which formulates CKE as a distantly supervised multi-instance learning problem, where models learn to summarize commonsense relations from a bag of images about an entity pair without any human annotation on image instances. To address the problem, CLEVER leverages vision-language pre-training models for deep understanding of each image in the bag, and selects informative instances from the bag to summarize commonsense entity relations via a novel contrastive attention mechanism. Comprehensive experimental results in held-out and human evaluation show that CLEVER can extract commonsense knowledge in promising quality, outperforming pre-trained language model-based methods by 3.9 AUC and 6.4 mAUC points. The predicted commonsense scores show strong correlation with human judgment with a 0.78 Spearman coefficient. Moreover, the extracted commonsense can also be grounded into images with reasonable interpretability. The data and codes can be obtained at https://github.com/thunlp/CLEVER.


翻译:大规模的常识知识库为广泛的人工智能应用提供了支撑,而自动提取常识知识 (CKE) 是一个根本性且具有挑战性的问题。从文本中提取CKE因文本中常识的稀疏性和报告偏差而备受批评。而视觉感知则包含着丰富的关于现实世界实体的常识知识,比如(人,可以拿起,瓶子),这可以作为获取基于实物的常识知识的有利资源。 在这项工作中,我们提出了CLEVER方法,将CKE表示为一种远程监督的多实例学习问题,其中模型从一组关于实体对的图片中学习总结常识关系,而不需要对图像实例进行任何人工标注。为了解决该问题,CLEVER利用视觉-语言预训练模型深度理解每个图像,并通过一种新颖的对比注意力机制从图片中选择有信息量的实例来总结常识实体关系。全面的实验结果和人类评估表明,CLEVER可以提取出具有良好质量的常识知识,并且胜过了基于预训练语言模型的方法,增加了3.9 AUC和6.4 mAUC点。预测的常识得分和人类判断之间存在着很强的相关性,spearman系数为0.78。此外,提取的常识知识还可以与图像相结合,并具有合理的可解释性。数据和代码可以在https://github.com/thunlp/CLEVER获取。

0
下载
关闭预览

相关内容

【AAAI2023】视觉辅助的常识知识获取
专知会员服务
15+阅读 · 2022年11月28日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
【AAAI2023】视觉辅助的常识知识获取
专知
1+阅读 · 2022年11月28日
论文浅尝 | 预训练单模态和多模态模型中的视觉常识
开放知识图谱
4+阅读 · 2022年8月22日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
33+阅读 · 2021年12月31日
Arxiv
101+阅读 · 2020年3月4日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员