数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

现实世界的大数据以自然语言文本的形式，在很大程度上是非结构化的、相互关联的、动态的。将如此庞大的非结构化数据转换为结构化知识是非常必要的。许多研究人员依赖于劳动密集型的标记和管理来从这些数据中提取知识，这可能是不可扩展的，特别是考虑到许多文本语料库是高度动态的和特定于域的。我们认为，大量的文本数据本身可能揭示了大量隐藏的模式、结构和知识。基于领域无关和领域相关的知识库，我们探索海量数据本身将非结构化数据转化为结构化知识的能力。通过将大量的文本文档组织成多维文本数据集，可以有效地提取和使用结构化的知识。在这次演讲中，我们介绍了一组最近开发的用于这种探索的方法，包括挖掘质量短语、实体识别和键入、多面分类构造以及多维文本立方体的构造和探索。结果表明，数据驱动方法是将海量文本数据转化为结构化知识的一个有前途的方向。

成为VIP会员查看完整内容

0-Keynote.pdf

101

相关内容

韩家炜

关注 5

韩家炜，美国伊利诺伊大学香槟分校计算机系教授，IEEE和ACM院士，美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席，创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。韩家炜主页：https://hanj.cs.illinois.edu/

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日