现实世界的大数据以自然语言文本的形式,在很大程度上是非结构化的、相互关联的、动态的。将如此庞大的非结构化数据转换为结构化知识是非常必要的。许多研究人员依赖于劳动密集型的标记和管理来从这些数据中提取知识,这可能是不可扩展的,特别是考虑到许多文本语料库是高度动态的和特定于域的。我们认为,大量的文本数据本身可能揭示了大量隐藏的模式、结构和知识。基于领域无关和领域相关的知识库,我们探索海量数据本身将非结构化数据转化为结构化知识的能力。通过将大量的文本文档组织成多维文本数据集,可以有效地提取和使用结构化的知识。在这次演讲中,我们介绍了一组最近开发的用于这种探索的方法,包括挖掘质量短语、实体识别和键入、多面分类构造以及多维文本立方体的构造和探索。结果表明,数据驱动方法是将海量文本数据转化为结构化知识的一个有前途的方向。

成为VIP会员查看完整内容
100

相关内容

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/
异质信息网络分析与应用综述,软件学报-北京邮电大学
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
42+阅读 · 2020年7月2日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
6+阅读 · 2018年3月25日
VIP会员
微信扫码咨询专知VIP会员