VLDB会议全称International Conference on Very Large Date Bases,是数据库领域的顶级学术会议和另外两大数据库会议SIGMOD、ICD共同构成了数据库领域的三大顶级会议。本教程讲述知识图谱相关主题。

通用知识库(KBs)是一些数据驱动应用的重要组件。从可用的网络资源实际构建的这些KBs远未完成,这在管理和使用方面提出了一系列挑战。在本教程中,我们将讨论如何表示、提取和推断DBs和KBs中的完整性、召回和否定。我们首先介绍了部分封闭世界语义下知识表示和查询的逻辑基础。(ii)我们展示了如何在KBs和文本中识别召回信息,以及(iii)如何通过统计模式估计召回信息。(iv)我们展示了如何识别有趣的否定陈述,以及(v)如何在比较概念中定位召回。

像Wikidata[32]、DBpedia[2]或Yago[30]这样的网络规模知识库(KBs)被用于从问答到个人助理的各种应用中。它们从网络资源中构建而成,专注于代表积极的知识,即真实的陈述。它们不存储否定语句。它们也是不完整的,也就是说,它们不包含感兴趣领域的所有真实陈述。这意味着,如果一条语句不在知识库中,我们就不知道它在现实世界中是假的,还是只是不存在。

这给KBs的管理和应用带来了重大挑战: 首先,知识库管理人员可能想知道知识库在哪里不完整,以便他们可以优先完成工作。这尤其适用于像NELL[4]这样的KBs,他们想要自动补全。其次,KB应用程序需要知道哪里的数据是不完整的,以便向最终用户发出质量问题的提示。例如,如果KB中恰好没有东京,那么查询“日本最大的城市”可能返回错误的答案。类似地,在企业设置中用于问答的知识库需要知道某个问题何时超出了它的知识[22]。这尤其适用于布尔问题,如“空客制造了这架飞机吗”,在这种情况下,“不”可能仅仅来自丢失的信息。最后,对于总结关于一个实体的显著信息的要求,一个全面的回答还应该包含不适用的显著事实。

传统上,知识库的构建和保存主要集中在出处和准确性方面[23,33]。然而,近年来,描述回忆和负面知识的形式主义日趋成熟[1,5,18],估计召回的统计和基于文本的方法也在兴起[3,7,12 - 14,17,24,29]和推导负面陈述[1,13]。将这些方法系统化,并使它们能够被普通数据库用户访问,是本教程的主题。本教程对理论和实践都有兴趣。它将向听众介绍完整性评估和否定方面的最新进展,并向他们提供一整套方法,以便更好地代表和评估特定数据集的召回。

成为VIP会员查看完整内容
0
50

相关内容

世界数据库业界三大会议之一

VLDB会议全称International Conference on Very Large Date Bases,是数据库领域的顶级学术会议和另外两大数据库会议SIGMOD、ICD共同构成了数据库领域的三大顶级会议。本教程讲述数据增强机器学习相关主题。

近年来,我们看到了新的数据增强(DA)技术的发展,用于创建基于机器学习的解决方案所需的额外训练数据。在本教程中,我们将全面概述由数据管理社区开发的用于数据准备和数据集成的技术。除了调查利用规则、转换和外部知识创建额外训练数据的特定任务DA操作符之外,我们还探索了高级DA技术,如插值、条件生成和DA策略学习。最后,我们描述了数据挖掘与其他机器学习范式(如主动学习、预训练和弱监督学习)之间的联系。我们希望这一讨论能够为高质量数据集创建的整体数据增强框架的未来研究方向提供启示。

https://vldb.org/2021/?program-schedule-tutorials

成为VIP会员查看完整内容
0
28

近年来,知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答,而是更多地倾向表达复杂的多跳问答需求。为了应对上述复杂多跳问答,各种不同类型的推理方法被陆续提出。系统地介绍了基于嵌入、路径、逻辑的多跳知识问答推理的最新研究进展以及相关数据集和评测指标,并重点围绕前沿问题进行了讨论。最后总结了现有方法的不足,并展望了未来的研究方向。

成为VIP会员查看完整内容
0
43

为机器配备对世界实体及其关系的全面了解一直是人工智能的一个长期目标。在过去的十年中,大规模知识库(也称为知识图谱)已经从Web内容和文本源中自动构建出来,并且已经成为搜索引擎的关键模块。这种机器知识可以被用来从语义上解释新闻、社交媒体和网络表格中的文本短语,并有助于回答问题、自然语言处理和数据分析。本文调查基本概念和实际的方法来创建和管理大型知识库。它涵盖了用于发现和规范化实体及其语义类型以及将它们组织成干净的分类法的模型和方法。在此基础上,本文讨论了以实体为中心的属性的自动提取。为了支持机器知识的长期生命周期和质量保证,本文提出了构建开放模式和知识管理的方法。学术项目的案例研究和工业知识图表补充了概念和方法的调查。

概述

增强计算机的“机器知识”,可以推动智能应用是计算机科学的一个长期目标[323]。由于知识获取方面取得了重大进展,这一以前难以捉摸的愿景如今已变得切实可行。这包括将嘈杂的互联网内容转化为实体和关系上的清晰知识结构的方法。知识获取方法使得自动建设知识库(KB):机器可读的关于现实世界的事实的集合。如今,公开的KBs提供了数以百万计的实体(比如人、组织、地点和书籍、音乐等创意作品)和数十亿的声明(比如谁研究了哪里,哪个国家拥有哪一种资本,或者哪位歌手演唱了哪首歌)。大公司部署的专有KBs包含了更大范围的知识,有一到两个数量级的实体。

知识库成为关键资产的一个突出用例是Web搜索。当我们向百度、Bing或谷歌发送一个类似“迪伦抗议歌曲”的查询时,我们会得到一个清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自动检测到我们对某一个体实体的事实感兴趣——这里是鲍勃·迪伦——并要求特定类型的相关实体——抗议歌曲——作为答案。这是可行的,因为搜索引擎在其后端数据中心有一个巨大的知识库,有助于发现用户请求(及其上下文)中的实体,并找到简明的答案。

本文介绍了从Web和文本源自动构建和管理大型知识库的方法。我们希望它将对博士生和对广泛的主题感兴趣的教师有用——从机器知识和数据质量到机器学习和数据科学,以及web内容挖掘和自然语言理解的应用。此外,本文还旨在为从事web、社会媒体或企业内容的语义技术的行业研究人员和实践者提供帮助,包括从文本或半结构化数据构建意义的各种应用程序。不需要有自然语言处理或统计学习的先验知识;我们将根据需要介绍相关的方法(或至少给出文献的具体指示)。

这篇文章共分为十章。第2章给出了知识表示的基础知识,并讨论了知识库的设计空间。第3、4和5章介绍了构建包含实体和类型的知识库核心的方法。第3章讨论了利用具有丰富和干净的半结构化内容的优质资源,第4章讨论了从文本内容中获取的知识。第5章特别关注将实体规范化为唯一表示的重要问题。第6章和第7章通过发现和提取实体的属性以及实体之间的关系的方法扩展了知识库的范围。第6章主要讨论为感兴趣的属性预先设计模式的情况。第7章讨论了为KB模式中尚未指定的属性和关系发现新的属性类型的情况。第8章讨论了知识库管理和知识库长期维护的质量保证问题。第9章介绍了几个具体KBs的案例研究,包括工业知识图谱(KGs)。我们在第10章以关键课程和关于机器知识主题可能走向的展望来结束。

成为VIP会员查看完整内容
0
148

特定领域的知识库(KB)从各种数据源精心整理而来,为专业人员提供了宝贵的参阅咨询。由于自然语言理解和人工智能的最新进展,会话系统使这些KBs很容易被专业人员访问,并且越来越受欢迎。尽管在开放域应用程序中越来越多地使用各种会话系统,但特定于域的会话系统的需求是完全不同的,而且具有挑战性。在本文中,我们针对特定领域的KBs提出了一个基于本体的对话系统。特别是,我们利用领域本体中固有的领域知识来识别用户意图,并利用相应的实体来引导对话空间。我们结合了来自领域专家的反馈来进一步细化这些模式,并使用它们为会话模型生成训练样本,减轻了会话设计人员的沉重负担。我们已经将我们的创新集成到一个对话代理中,该代理关注医疗保健,这是IBM Micromedex产品的一个特性。

https://dl.acm.org/doi/abs/10.1145/3318464.3386139

成为VIP会员查看完整内容
0
21

【导读】新加坡国立大学的Xiang Wang、Tat-Seng Chua,以及来自中国科学技术大学的Xiangnan He在WSDM 2020会议上通过教程《Learning and Reasoning on Graph for Recommendation》介绍了基于图学习和推理的推荐系统,涵盖了基于随机游走的推荐系统、基于网络嵌入的推荐系统,基于图神经网络的推荐系统等内容。

Tutorial摘要:

推荐方法构建预测模型来估计用户-项目交互的可能性。之前的模型在很大程度上遵循了一种通用的监督学习范式——将每个交互视为一个单独的数据实例,并基于“信息孤岛”进行预测。但是,这些方法忽略了数据实例之间的关系,这可能导致性能不佳,特别是在稀疏场景中。此外,建立在单独数据实例上的模型很难展示推荐背后的原因,这使得推荐过程难以理解。

在本教程中,我们将从图学习的角度重新讨论推荐问题。用于推荐的公共数据源可以组织成图,例如用户-项目交互(二部图)、社交网络、项目知识图(异构图)等。这种基于图的组织将孤立的数据实例连接起来,为开发高阶连接带来了好处,这些连接为协作过滤、基于内容的过滤、社会影响建模和知识感知推理编码有意义的模式。随着最近图形神经网络(GNNs)的成功,基于图形的模型显示了成为下一代推荐系统技术的潜力。本教程对基于图的推荐学习方法进行了回顾,重点介绍了GNNs的最新发展和先进的推荐知识。通过在教程中介绍这一新兴而有前景的领域,我们希望观众能够对空间有更深刻的理解和准确的洞察,激发更多的想法和讨论,促进技术的发展。

Tutorial大纲:

成为VIP会员查看完整内容
0
166
小贴士
相关资讯
这是一份通俗易懂的知识图谱技术应用落地指南
51CTO博客
18+阅读 · 2019年3月15日
腾讯互娱刘伟 | 知识图谱在运维中的应用
开放知识图谱
14+阅读 · 2018年10月10日
王仲远 | 基于概念知识图谱的短文本理解
开放知识图谱
12+阅读 · 2018年3月28日
你不得不看的六篇知识图谱落地好文
AI前线
25+阅读 · 2017年11月19日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
39+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
12+阅读 · 2017年11月11日
漆桂林 | 知识图谱的应用
开放知识图谱
35+阅读 · 2017年9月26日
漆桂林 | 开放:知识图谱发展的必由之路
开放知识图谱
6+阅读 · 2017年6月28日
相关论文
Eli Chien,Chao Pan,Puoya Tabaghi,Olgica Milenkovic
0+阅读 · 9月15日
Rachele Carli,Amro Najjar
0+阅读 · 9月14日
Huifeng Guo,Wei Guo,Yong Gao,Ruiming Tang,Xiuqiang He,Wenzhi Liu
7+阅读 · 4月17日
Houssam Zenati,Chuan Sheng Foo,Bruno Lecouat,Gaurav Manek,Vijay Ramaseshan Chandrasekhar
3+阅读 · 2019年5月1日
Embedding Logical Queries on Knowledge Graphs
William L. Hamilton,Payal Bajaj,Marinka Zitnik,Dan Jurafsky,Jure Leskovec
5+阅读 · 2018年9月6日
Asymmetric Similarity Loss Function to Balance Precision and Recall in Highly Unbalanced Deep Medical Image Segmentation
Seyed Raein Hashemi,Seyed Sadegh Mohseni Salehi,Deniz Erdogmus,Sanjay P. Prabhu,Simon K. Warfield,Ali Gholipour
4+阅读 · 2018年6月29日
Approximability of Discriminators Implies Diversity in GANs
Yu Bai,Tengyu Ma,Andrej Risteski
4+阅读 · 2018年6月27日
Bo Du,Shihan Cai,Chen Wu,Liangpei Zhang,Dacheng Tao
5+阅读 · 2018年4月25日
Alexandre Attia,Sharone Dayan
3+阅读 · 2018年1月19日
Top