【导读】如何从大规模文本中挖掘知识是个重要问题。最近数据挖掘大师韩家炜做了“从海量非结构化文本中挖掘结构化知识”报告,阐述了最新文本挖掘方面的进展,非常值得关注!

韩家炜是美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。

韩教授曾获2004 ACM SIGKDD创新奖、2005 IEEE计算机分会技术成就奖、2009 IEEE计算机分会WAllace McDowell Award和2011 Daniel C. Drucker Eminent Faculty Award at UIUC等奖项。

http://hanj.cs.illinois.edu/

从海量非结构化文本中挖掘结构化知识

现实世界的大数据很大程度上是动态的、相互关联的、非结构化的文本。将这种海量的非结构化数据转化为结构化知识是一个迫切需要解决的问题。许多研究人员依靠人工作业的标签和管理从这些数据中提取知识。然而,这种方法是不可扩展的。我们认为,大量文本数据本身可能会揭示大量隐藏的结构和知识。通过预训练的语言模型和文本嵌入方法,可以将非结构化数据转化为结构化知识。在这次演讲中,我们介绍了我们小组最近开发的一套用于此类探索的方法,包括联合球形文本嵌入、判别性主题挖掘、分类法构建、文本分类和基于分类法的文本分析。我们证明了数据驱动方法在将海量文本数据转化为结构化知识方面是有前途的。

目录内容: 动机 Motivation: Mining Unstructured Text for Structured Knowledge 理解语义Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE) 主题挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH) 自动分类法构建 Automated Taxonomy Construction and Enrichment

  • SetExpan, SetCoExpan, CGExpan, HiExpan, CoRel
  • Automated Taxonomy Enrichment (TaxoExpan) 文档分类 Document Classification by Weak Supervision
  • Weakly supervised: Using Category-Names Only (LOTClass)
  • Weakly Supervised Multiclass Classification Using Taxonomy (TaxoClass) Looking Forward

现实世界中80%大数据都是个结构化文本,在很大程度上是非结构化的、互联的和动态的,且以自然语言文本的形式出现,将此类庞大的非结构化数据转换为有用的知识是在大数据时代的一条必由之路。目前大家普遍采用劳动密集型的方法对数据进行打标签从而提取知识,这种方法短时来看可取,但却无法进行扩展,特别是许多企业的文本数据是高度动态且领域相关。

韩家炜教授认为,大量的文本数据本身就隐含了大量的隐模式、结构和知识,因此我们可以借助domain-independent 和 domain-dependent的知识库,来探索如何将海量数据从非结构化的数据转化为有用的知识。 (1)从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构,这步工作就是将这些数据挖掘出来。 (2)将文本数据转化为有类型的 Network/Text Cube。将文本数据变成有结构、有类型的数据(Network/Text Cube) (3)挖掘 Network/Text Cube 生成有用的知识。最后一步才是挖掘。

成为VIP会员查看完整内容
0
40

相关内容

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/

来自华为的研究人员在UIUC2021上将给出关于预训练模型与文本挖掘的教程,非常值得关注!

近年来,文本表示学习在广泛的文本挖掘任务中取得了巨大的成功。早期的单词嵌入学习方法将单词表示为固定的低维向量,以捕获它们的语义。然后,将学习到的词嵌入作为特定任务模型的输入特征。近年来,预训练语言模型(pre-training language model, PLMs)在自然语言处理(natural language processing, NLP)领域发生了革命性的变化,自然语言处理(natural language processing, NLP)通过大规模文本语料库上预训练的基于transformer的神经模型来学习通用语言表示。这种预训练过的表示对通用语言特征进行编码,这些特征几乎可以迁移到任何与文本相关的应用中。在许多应用中,PLM优于先前的任务特定模型,因为它们只需要对目标语料库进行微调,而无需从头开始训练。

https://yumeng5.github.io/kdd21-tutorial/

在本教程中,我们将介绍预训练文本嵌入和语言模型的最新进展,以及它们在广泛的文本挖掘任务中的应用。具体来说,我们首先概述了一组最近开发的自监督和弱监督文本嵌入方法和预训练的语言模型,它们是下游任务的基础。然后,我们提出了几种基于预先训练的文本嵌入和语言模型的新方法,用于各种文本挖掘应用,如主题发现和文本分类。我们关注的方法是弱监督、领域独立、语言不可知、有效和可扩展的,用于从大规模文本语料库中挖掘和发现结构化知识。我们将在真实的数据集上演示预先训练的文本表示如何帮助减轻人工标注的负担,并促进自动、准确和高效的文本分析。

目录: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

成为VIP会员查看完整内容
0
21

现实世界的大数据以自然语言文本的形式,在很大程度上是非结构化的、相互关联的、动态的。将如此庞大的非结构化数据转换为结构化知识是非常必要的。许多研究人员依赖于劳动密集型的标记和管理来从这些数据中提取知识,这可能是不可扩展的,特别是考虑到许多文本语料库是高度动态的和特定于域的。我们认为,大量的文本数据本身可能揭示了大量隐藏的模式、结构和知识。基于领域无关和领域相关的知识库,我们探索海量数据本身将非结构化数据转化为结构化知识的能力。通过将大量的文本文档组织成多维文本数据集,可以有效地提取和使用结构化的知识。在这次演讲中,我们介绍了一组最近开发的用于这种探索的方法,包括挖掘质量短语、实体识别和键入、多面分类构造以及多维文本立方体的构造和探索。结果表明,数据驱动方法是将海量文本数据转化为结构化知识的一个有前途的方向。

成为VIP会员查看完整内容
0
72

讲座题目

从海量文本中构建和挖掘异构信息网络:Constructing and Mining Heterogeneous Information Networks from Massive Text

讲座简介

真实世界的数据主要以非结构化文本的形式存在。数据挖掘研究的一个重大挑战是开发有效且可伸缩的方法,将非结构化文本转换为结构化知识。根据我们的设想,将这些文本转换成结构化的异构信息网络是非常有益的,在这种网络上,可以根据用户的需要生成可操作的知识。在本教程中,我们将全面概述最近在这方面的研究和发展。首先,我们介绍了一系列有效的方法,从海量的、特定于领域的文本语料库中构建异构信息网络。然后讨论了基于用户需求挖掘文本丰富网络的方法。具体来说,我们关注的是可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法可以处理各种文本。在真实的数据集(包括新闻文章、科学出版物和产品评论)上,我们进一步展示了如何构建信息网络,以及如何帮助进一步的探索性分析。

讲座嘉宾

Jingbo Shang(尚景波),伊利诺伊大学香槟分校计算机科学系博士生。他的研究重点是用最少的人力从大量文本语料库中挖掘和构建结构化知识。他的研究获得了多项著名奖项的认可,包括Yelp数据集挑战大奖(2015)、谷歌结构化数据和数据库管理博士研究金(2017-2019)。尚先生在大型会议(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有丰富的经验。

成为VIP会员查看完整内容
0
38

题目: TextCube: Automated Construction and Multidimensional Exploration

简介: 当今社会沉浸在大量文本数据中,从新闻文章到社交媒体,研究文献,病历和公司报告。数据科学和工程学的一大挑战是开发有效且可扩展的方法,以从海量文本数据中提取结构和知识,以满足各种应用的需要,而无需广泛的人工注释。在本教程中,我们将展示TextCube提供了一种可以满足此类信息需求的关键信息组织结构。我们概述了一组最近开发的数据驱动方法,这些方法可帮助从大规模的特定于领域的文本语料库自动构建TextCube,并表明如此构建的TextCube将增强各种应用程序的文本探索和分析。我们专注于可扩展,弱监督,独立于域,与语言无关且有效的新TextCube构建方法(即从各种领域的大型语料库生成高质量的TextCube)。我们将用真实的数据集演示如何构造TextCube来协助对大量文本语料库进行多维分析。

嘉宾介绍: 韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利诺伊州香槟分校博士。 他的研究专注于以最少的人力从大量文本语料库中挖掘和构建结构化知识。 他的研究获得了多个著名奖项的认可,包括Yelp数据集挑战赛的大奖(2015年),Google博士在结构化数据和数据库管理领域的奖学金(2017-2019年)。

成为VIP会员查看完整内容
0
22
小贴士
相关VIP内容
专知会员服务
8+阅读 · 2020年11月16日
专知会员服务
48+阅读 · 2020年7月28日
相关论文
Dongha Lee,Jiaming Shen,SeongKu Kang,Susik Yoon,Jiawei Han,Hwanjo Yu
0+阅读 · 1月18日
Zhiyuan Liu,Yixin Cao,Fuli Feng,Xiang Wang,Xindi Shang,Jie Tang,Kenji Kawaguchi,Tat-Seng Chua
1+阅读 · 1月14日
Distillating Knowledge from Graph Convolutional Networks
Yiding Yang,Jiayan Qiu,Mingli Song,Dacheng Tao,Xinchao Wang
21+阅读 · 2020年3月23日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
81+阅读 · 2020年3月4日
Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements
Kai Shu,Suhang Wang,Dongwon Lee,Huan Liu
8+阅读 · 2020年1月2日
Zero-Shot Entity Linking by Reading Entity Descriptions
Lajanugen Logeswaran,Ming-Wei Chang,Kenton Lee,Kristina Toutanova,Jacob Devlin,Honglak Lee
6+阅读 · 2019年6月18日
Hao Peng,Jianxin Li,Qiran Gong,Yangqiu Song,Yuanxing Ning,Kunfeng Lai,Philip S. Yu
9+阅读 · 2019年6月9日
Zhenghao Liu,Chenyan Xiong,Maosong Sun,Zhiyuan Liu
7+阅读 · 2018年6月3日
Wenlin Wang,Zhe Gan,Wenqi Wang,Dinghan Shen,Jiaji Huang,Wei Ping,Sanjeev Satheesh,Lawrence Carin
5+阅读 · 2017年12月29日
Top
微信扫码咨询专知VIP会员