When working with any sort of knowledge base (KB) one has to make sure it is as complete and also as up-to-date as possible. Both tasks are non-trivial as they require recall-oriented efforts to determine which entities and relationships are missing from the KB. As such they require a significant amount of labor. Tables on the Web, on the other hand, are abundant and have the distinct potential to assist with these tasks. In particular, we can leverage the content in such tables to discover new entities, properties, and relationships. Because web tables typically only contain raw textual content we first need to determine which cells refer to which known entities---a task we dub table-to-KB matching. This first task aims to infer table semantics by linking table cells and heading columns to elements of a KB. Then second task builds upon these linked entities and properties to not only identify novel ones in the same table but also to bootstrap their type and additional relationships. We refer to this process as novel entity discovery and, to the best of our knowledge, it is the first endeavor on mining the unlinked cells in web tables. Our method identifies not only out-of-KB (``novel'') information but also novel aliases for in-KB (``known'') entities. When evaluated using three purpose-built test collections, we find that our proposed approaches obtain a marked improvement in terms of precision over our baselines whilst keeping recall stable.


翻译:当与任何类型的知识库(KB)合作时,人们必须确定它是否完整,并且尽可能更新。这两个任务都是非三重性的,因为它们需要回顾性化的努力来确定KB缺少哪些实体和关系。因此,它们需要大量人力。另一方面,网络上的表格是丰富的,具有协助这些任务的独特潜力。特别是,我们可以利用这些表格中的内容发现新的实体、属性和关系。因为网络表格通常只包含原始文本内容,我们首先需要确定哪些细胞指哪些已知实体-任务,即我们将表格对KB的匹配。第一项任务的目的是通过将表格单元格和标题与KB的元素连接起来来推断表格的语义性。接着,第二项任务将这些链接的实体和属性不仅确定同一表格中的新型实体,而且还能够锁定其类型和其他关系。我们称之为新实体的发现,而我们最了解的是,这是在网络表格中首次努力挖掘未连接的单元格,而不是使用新的数据库。我们的方法只是从这些数据库中找到的。我们所知道的“B” 。我们的方法只是从这些实体和“K”测试中找到的标志性数据库中,我们所知道的“B”的“目的”的“工具。我们”在数据库中首先是用来挖掘“我们“我们”的“我们”的“我们”的”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的”的“新目的”中所使用的方法,而不是只是用来用来用来用来在新目的”的“我们“我们”的“我们”的“我们”的“我们”的“我们”的”的“我们”的”的“我们”的“在“在“我们”的“我们”的“我们”的“我们”的”的”的“我们”中“我们”的”的“在“在“在”中“在”的”的”的”的”中“在“的”的”的”中“在“的”的”中“在“在“的”中“新”中“的”中“的”中“新”中“的”中“新”中“新”的”的“在“新”中“的“的“在“的“的“的”中“的”的”的”中

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
知识图谱本体结构构建论文合集
专知会员服务
107+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员