为机器配备对世界实体及其关系的全面了解一直是人工智能的一个长期目标。在过去的十年中,大规模知识库(也称为知识图谱)已经从Web内容和文本源中自动构建出来,并且已经成为搜索引擎的关键模块。这种机器知识可以被用来从语义上解释新闻、社交媒体和网络表格中的文本短语,并有助于回答问题、自然语言处理和数据分析。本文调查基本概念和实际的方法来创建和管理大型知识库。它涵盖了用于发现和规范化实体及其语义类型以及将它们组织成干净的分类法的模型和方法。在此基础上,本文讨论了以实体为中心的属性的自动提取。为了支持机器知识的长期生命周期和质量保证,本文提出了构建开放模式和知识管理的方法。学术项目的案例研究和工业知识图表补充了概念和方法的调查。

概述

增强计算机的“机器知识”,可以推动智能应用是计算机科学的一个长期目标[323]。由于知识获取方面取得了重大进展,这一以前难以捉摸的愿景如今已变得切实可行。这包括将嘈杂的互联网内容转化为实体和关系上的清晰知识结构的方法。知识获取方法使得自动建设知识库(KB):机器可读的关于现实世界的事实的集合。如今,公开的KBs提供了数以百万计的实体(比如人、组织、地点和书籍、音乐等创意作品)和数十亿的声明(比如谁研究了哪里,哪个国家拥有哪一种资本,或者哪位歌手演唱了哪首歌)。大公司部署的专有KBs包含了更大范围的知识,有一到两个数量级的实体。

知识库成为关键资产的一个突出用例是Web搜索。当我们向百度、Bing或谷歌发送一个类似“迪伦抗议歌曲”的查询时,我们会得到一个清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自动检测到我们对某一个体实体的事实感兴趣——这里是鲍勃·迪伦——并要求特定类型的相关实体——抗议歌曲——作为答案。这是可行的,因为搜索引擎在其后端数据中心有一个巨大的知识库,有助于发现用户请求(及其上下文)中的实体,并找到简明的答案。

本文介绍了从Web和文本源自动构建和管理大型知识库的方法。我们希望它将对博士生和对广泛的主题感兴趣的教师有用——从机器知识和数据质量到机器学习和数据科学,以及web内容挖掘和自然语言理解的应用。此外,本文还旨在为从事web、社会媒体或企业内容的语义技术的行业研究人员和实践者提供帮助,包括从文本或半结构化数据构建意义的各种应用程序。不需要有自然语言处理或统计学习的先验知识;我们将根据需要介绍相关的方法(或至少给出文献的具体指示)。

这篇文章共分为十章。第2章给出了知识表示的基础知识,并讨论了知识库的设计空间。第3、4和5章介绍了构建包含实体和类型的知识库核心的方法。第3章讨论了利用具有丰富和干净的半结构化内容的优质资源,第4章讨论了从文本内容中获取的知识。第5章特别关注将实体规范化为唯一表示的重要问题。第6章和第7章通过发现和提取实体的属性以及实体之间的关系的方法扩展了知识库的范围。第6章主要讨论为感兴趣的属性预先设计模式的情况。第7章讨论了为KB模式中尚未指定的属性和关系发现新的属性类型的情况。第8章讨论了知识库管理和知识库长期维护的质量保证问题。第9章介绍了几个具体KBs的案例研究,包括工业知识图谱(KGs)。我们在第10章以关键课程和关于机器知识主题可能走向的展望来结束。

成为VIP会员查看完整内容
289

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ISWC2020】如何高效地构建大规模知识图谱?102页ppt
专知会员服务
69+阅读 · 2020年11月7日
最新《知识图谱表示学习补全》综述论文,16页pdf
专知会员服务
65+阅读 · 2020年10月29日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
180+阅读 · 2020年9月7日
专知会员服务
143+阅读 · 2020年8月21日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
189+阅读 · 2020年1月17日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
万字长文| 中文知识图谱构建技术以及应用的综述
中国人工智能学会
70+阅读 · 2019年9月9日
【知识图谱】中医临床知识图谱的构建与应用
产业智能官
60+阅读 · 2017年12月18日
领域应用 | 中医临床知识图谱的构建与应用
开放知识图谱
33+阅读 · 2017年12月12日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
A Survey on Edge Intelligence
Arxiv
51+阅读 · 2020年3月26日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
30+阅读 · 2019年3月13日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Arxiv
5+阅读 · 2018年10月15日
VIP会员
相关VIP内容
【ISWC2020】如何高效地构建大规模知识图谱?102页ppt
专知会员服务
69+阅读 · 2020年11月7日
最新《知识图谱表示学习补全》综述论文,16页pdf
专知会员服务
65+阅读 · 2020年10月29日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
180+阅读 · 2020年9月7日
专知会员服务
143+阅读 · 2020年8月21日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
189+阅读 · 2020年1月17日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
相关资讯
万字长文| 中文知识图谱构建技术以及应用的综述
中国人工智能学会
70+阅读 · 2019年9月9日
【知识图谱】中医临床知识图谱的构建与应用
产业智能官
60+阅读 · 2017年12月18日
领域应用 | 中医临床知识图谱的构建与应用
开放知识图谱
33+阅读 · 2017年12月12日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
相关论文
A Survey on Edge Intelligence
Arxiv
51+阅读 · 2020年3月26日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
30+阅读 · 2019年3月13日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Arxiv
5+阅读 · 2018年10月15日
微信扫码咨询专知VIP会员