【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络,UIUC232页ppt

2019 年 8 月 11 日 专知
【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络,UIUC232页ppt


导读

第25届ACM SIGKDD知识发现与数据挖掘大会于 2019 年 8 月 4 日- 8 日在美国阿拉斯加州安克雷奇市举行。一年一度的KDD大会是最重要的跨学科会议,汇聚了数据科学、数据挖掘、知识发现、大规模数据分析和大数据等领域的研究人员和实践者。今天小编整理了关于数据挖掘方面的内容---从文本中构建和挖掘异构信息网络,本文提供了一个全面的综述,总结了在这个方向最近的研究和发展。


T17: Constructing and Mining Heterogeneous Information Networks from Massive Text

Jingbo Shang, Jiaming Shen, Liyuan Liu, Jiawei Han
Computer Science Department, University of Illinois at Urbana-Champaign

摘要

现实世界中的数据主要以非结构化文本的形式存在。数据挖掘研究的一个重大挑战是开发有效的、可伸缩的方法,将非结构化文本转换为结构化知识。基于我们的愿景,将这些文本转换为结构化的异构信息网络是非常有益的,可以根据用户的需求生成可操作的知识。


在本教程中,我们将全面概述这方面的最新研究和发展。首先,我们介绍了一系列从大规模、领域特定的文本语料库构建异构信息网络的有效方法。然后,我们讨论了基于用户需求挖掘这种文本丰富网络的方法。具体来说,我们关注的是可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法可以处理各种文本。我们还将在实际数据集(包括新闻文章、科学出版物和产品评论)上进一步演示如何构建信息网络,以及如何帮助进一步的探索性分析。


大纲
1
介绍

      1.  动机:为什么要从大量文本中构建和挖掘异构信息网络?

      2.  大量文本网络构建的综述

      3.  关于构建网络应用探索的综述


2
短语挖掘

       1.  为什么短语挖掘以及如何定义高质量的短语?

       2.  监督方法

            2.1.  名词短语分块方法

            2.2.  基于解析的方法

            2.3.  如何在语料库级别对实体进行排序?

      3.  无监督方法

           3.1.  基于原始频率的方法

           3.2.  基于协调的方法

           3.3.  基于主题模型的方法

           3.4.  对比方法

      4.  弱/远程监督方法

           4.1.  短语分词及其变体

           4.2.  如何利用远程监督?

      5.  系统演示和软件介绍

           5.1.  一种多语言短语挖掘系统,它将AutoPhraseSegPhrase和TopMine集成在一起,支持多种语言的短语挖掘(例如,英语,西班牙语,中文,阿拉伯语和日语)。


3
信息抽取:实体,属性和关系

      1.  什么是命名实体识别(NER)?

      2.  传统的监督方法

           2.1.  CorNLL03共享任务

           2.2.  序列标注框架

           2.3.  条件随机场

           2.4  手工制作的特征

      3.  现代端到端神经模型

           3.1.  双向LSTM模型

           3.2.  语言模型和语境化表示

         3.3.  Raw-to-end模型

      4.  远程监督的模型

           4.1.  实体输入的数据编程

           4.2.  学习特定领域的词典

      5.  基于元模式的信息提取

           5.1.  元模式挖掘

           5.2.  元模式增强的NER

      6.  系统演示和软件

           6.1  命名实体识别推理Python包:LightNER。该模块可帮助用户以高效便捷的方式轻松地将预训练的NER模型应用于他们自己的语料库。


4
分类构建

       1.  分类学基础

            1.1.  分类法定义

            1.2.  分类应用

            1.3.  分类构建方法

       2.  基于实例的分类构建

            2.1.  使用的方法综述

            2.2.  基于模式的方法

            2.3.  监督方法

            2.4.  弱监督方法

       3.  基于聚类的分类构建

            3.1.  分层主题建模

            3.2.  一般图模型方法

            3.3.  分层聚类


5
挖掘异构信息网络(结构化分析)

       1.  基本分析系统演示

            1.1.  AutoNet系统:它从PubMed论文(标题和摘要)构建了一个巨大的结构化网络,并支持在线构建(新文档)和智能探索(搜索)。

       2.  概要

            2.1.  基于图的总结

            2.2.  聚类和排序的总结

       3.  元路径引导探索

            3.1.  基于元路径的相似性

            3.2.  元路径引导节点嵌入

       4.  链接预测

            4.1.  任务引导节点嵌入

            4.2.  构建网络中的链接增强


6
总结和未来的方向

       1.  摘要

            1.1.  原理与技术

            1.2.  优势和局限

       2.  挑战和未来的研究方向

       3.  与观众的互动

            3.1  如何根据您的文本数据和应用需求构建和挖掘异构信息网络?


7
提问和讨论


报告人简介

Jingbo Shang伊利诺伊州厄巴纳 - 香槟分校大学计算机科学系在读博士。他的研究重点是从大量的文本语料库中挖掘和构建结构化知识,同时尽量减少人力。他的研究得到了多个著名奖项的认可,包括Yelp数据集挑战大奖(2015年),结构化数据和数据库管理Google博士奖学金(2017-2019)。尚先生在重大会议上(SIGMOD'17,WWW'17,SIGKDD'17和SIGKDD'18)提供教程方面拥有丰富的经验


Jiaming Shen ,伊利诺伊州厄巴纳 - 香槟分校大学计算机科学系在读博士。他的研究重点是将大量非结构化文本库转换为结构化知识,以便更好地检索,探索和分析特定领域的语料库。他是2016年Brian Totty研究生奖学金的获得者。 


Liyuan Liu伊利诺伊州厄巴纳 - 香槟分校大学计算机科学系在读博士。他的研究兴趣主要在于数据驱动的文本挖掘,包括语言建模的语境化表示,弱监督和异构监督。


Jiawei Han是伊利诺伊大学计算机科学系的教授。他一直在研究数据挖掘,信息网络分析和数据库系统,有600多种出版物。他创办了ACM TKDD学报并任主编。他已获得ACM SIGKDD创新奖(2004年),IEEE计算机学会技术成就奖(2005年),IEEE计算机学会W. Wallace McDowell奖(2009年),以及UIUC的Daniel C. Drucker杰出教师奖(2011年)。他是ACM的研究员和IEEE的研究员。他目前是美国陆军研究实验室网络科学 - 协作技术联盟(NS-CTA)计划支持的信息网络学术研究中心(INARC)主任。他的合著教科书“数据挖掘:概念与技术”(Morgan Kaufmann)已在全球范围内采用。


原文链接:

https://shangjingbo1226.github.io/2019-04-22-kdd-tutorial/


请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“HIN” 就可以获取教程载链接~






-END-

 · 

专知,专业可信的人工智能知识分发!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询


请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
12

相关内容

异构信息网络 (Hetegeneous Information Network 以下简称 HIN),是由 UIUC 的 Han Jiawei 和 UCLA 的 Sun Yizhou 在 2011 年的 VLDB 论文中首次提出。

多模态信息抽取,Multi-modal Information Extraction from Text, Semi-structured, and Tabular Data on the Web

Organizers: Xin Luna Dong, Hannaneh Hajishirzi, Colin Lockard and Prashant Shiralkar

万维网以多种形式包含大量的文本信息:非结构化文本、基于模板的半结构化网页(以键-值对和列表的形式呈现数据)和表格。从这些资源中提取信息并将其转换为结构化形式的方法一直是自然语言处理(NLP)、数据挖掘和数据库社区研究的目标。虽然这些研究人员已经很大程度上根据数据的模态将web数据的提取分离到不同的问题中,但他们也面临着类似的问题,比如使用有限的标记数据进行学习,定义(或避免定义)本体,利用先验知识,以及针对web规模的缩放解决方案。在本教程中,我们将从整体的角度来看待信息抽取,探索挑战中的共性,以及为解决这些不同形式的文本而开发的解决方案。

地址:

https://sites.google.com/view/acl-2020-multi-modal-ie

成为VIP会员查看完整内容
0
84

【导读】异构网络表示学习Heterogeneous Network Representation Learning是当前自数据挖掘以及其他应用的研究热点,在众多任务中具有重要的应用。近日,UIUC韩家炜等学者发布了异构网络表示学习的综述大全,共15页pdf115篇参考文献,从背景知识到当前代表性HNE模型和应用研究挑战等,是最新可参考绝好的异构网络表示学习模型的文献。

由于现实世界中的对象及其交互通常是多模态和多类型的,所以异构网络被广泛地用作传统同构网络(图)的一个更强大、更现实和更通用的超类。与此同时,表示学习(representation learning,又称嵌入)最近得到了深入的研究,并被证明对各种网络挖掘和分析任务都是有效的。由于已有大量的异构网络嵌入(HNE)算法,但没有专门的调研综述,作为这项工作的第一个贡献,我们率先提供了一个统一的范式,对各种现有的HNE算法的优点进行系统的分类和分析。此外,现有的HNE算法虽然大多被认为是通用的,但通常是在不同的数据集上进行评估。由于HNE在应用上的天然优势,这种间接的比较在很大程度上阻碍了任务性能的改善,特别是考虑到从真实世界的应用数据构建异构网络的各种可能的方法。因此,作为第二项贡献,我们创建了四个基准数据集,这些数据集具有不同来源的尺度、结构、属性/标签可用性等不同属性,以全面评估HNE算法。作为第三个贡献,我们对十种流行的HNE算法的实现进行了细致的重构和修改,并创建了友好的接口,并在多个任务和实验设置上对它们进行了全方位的比较。

1.概述

网络和图形构成了一种规范的、普遍存在的交互对象建模范式,已经引起了各个科学领域的重要研究关注[59、30、24、3、89、87]。然而,现实世界的对象和交互通常是多模态和多类型的(例如,作者、论文、场所和出版物网络中的术语[69,65];基于位置的社交网络中的用户、地点、类别和gps坐标[101,91,94];以及生物医学网络中的基因、蛋白质、疾病和物种[38,14])。为了捕获和利用这种节点和链路的异构性,异构网络被提出并广泛应用于许多真实的网络挖掘场景中,如基于元路径的相似度搜索[70、64、92]、节点分类和聚类[18、20、11]、知识库补全[68、48、103]和推荐[23、106、31]。

与此同时,目前对图数据的研究主要集中在表示学习(图数据嵌入)方面,特别是在神经网络算法的先行者们展示了前所未有的有效而高效的图数据挖掘的经验证据之后[25,4,13]。他们的目标是将图数据(如节点[49、72、26、77、37、28、9、75]、链接[107、1、50、96]和子图[47、93、97、45])转换为嵌入空间中的低维分布向量,在嵌入空间中保留图的拓扑信息(如高阶邻近性[5、76、105、34]和结构[55、102、42、17])。这样的嵌入向量可以被各种下游的机器学习算法直接执行[58,39,10]。

在异构网络与图嵌入的交叉点上,异构网络嵌入(HNE)近年来也得到了较多的研究关注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的应用优势,许多算法在不同的应用领域分别被开发出来,如搜索和推荐[23,63,6,89]。此外,由于知识库(KBs)也属于异构网络的一般范畴,许多KB嵌入算法可以与HNE算法相比较[81、3、40、68、88、15、48、79、60]。

不幸的是,不同的HNE算法是在学术界和工业界完全不同的社区开发的。无论是在概念上还是在实验中,都没有对其进行系统全面的分析。事实上,由于缺乏基准平台(有现成的数据集和基线),研究人员往往倾向于构建自己的数据集,并重新实现一些最流行的(有时是过时的)比较算法,这使得公平的性能评估和明确的改进属性变得极其困难。

只需考虑图1中发布数据小例子。较早的HNE算法如metapath2vec [16])是在作者、论文和场所节点类型为(a)的异构网络上发展起来的,但是可以像(b)那样用大量的术语和主题作为附加节点来丰富论文,这使得基于随机游走的浅嵌入算法效果不佳,而倾向于R-GCN[57]这样的基于邻域聚合的深度图神经网络。此外,还可以进一步加入术语嵌入等节点属性和研究领域等标签,使其只适用于半监督归纳学习算法,这可能会带来更大的偏差[104、82、33、54]。最后,通常很难清楚地将性能收益归因于技术新颖性和数据调整之间的关系。

在这项工作中,我们首先制定了一个统一而灵活的数学范式,概括了所有的HNE算法,便于理解每个模型的关键优点(第2节)。特别地,基于对现有模型(以及可能的未来模型)进行清晰分类和总结的统一分类,我们提出了网络平滑度的一般目标函数,并将所有现有的模型重新组织成统一的范式,同时突出其独特的新颖贡献(第3节)。我们认为该范式将有助于指导未来新型HNE算法的发展,同时促进它们与现有算法的概念对比。

作为第二个贡献,我们通过详尽的数据收集、清理、分析和整理(第4节),特意准备了四个基准的异构网络数据集,具有规模、结构、属性/标签可用性等多种属性。这些不同的数据集,以及一系列不同的网络挖掘任务和评估指标,构成了未来HNE算法的系统而全面的基准资源。

作为第三个贡献,许多现有的HNE算法(包括一些非常流行的算法)要么没有一个灵活的实现(例如,硬编码的节点和边缘类型、固定的元路径集等),要么不能扩展到更大的网络(例如,在训练期间的高内存需求),这给新的研究增加了很多负担(例如,,在正确的重新实现中需要大量的工程工作)。为此,我们选择了10种流行的HNE算法,在这些算法中,我们仔细地重构和扩展了原始作者的实现,并为我们准备好的数据集的插件输入应用了额外的接口(第5节)。基于这些易于使用和有效的实现,我们对算法进行了全面的经验评估,并报告了它们的基准性能。实证结果在提供了与第3节的概念分析相一致的不同模型的优点的同时,也为我们的基准平台的使用提供了范例,以供今后对HNE的研究参考。

本文的其余部分组织如下。第2节首先介绍我们提出的通用HNE范式。随后,第3节对我们调查中的代表性模型进行了概念上的分类和分析。然后,我们在第4节中提供了我们准备好的基准数据集,并进行了深入的分析。在第5节中,我们对10种常用的HNE算法进行了系统而全面的实证研究,对HNE的发展现状进行了评价。第六部分是对未来HNE平台使用和研究的展望。

异构网络示例

算法分类

Proximity-Preserving Methods

如前所述,网络嵌入的一个基本目标是捕获网络拓扑信息。这可以通过在节点之间保留不同类型的邻近性来实现。在HNE中,有两类主要的接近性保护方法:基于随机步法的方法(灵感来自DeepWalk[49])和基于一阶/二阶接近性的方法(灵感来自LINE[72])。

Message-Passing Methods

网络中的每个节点都可以将属性信息表示为特征向量xu。消息传递方法的目标是通过聚合来自u邻居的信息来学习基于xu的节点嵌入eu。在最近的研究中,图神经网络(GNNs)[37]被广泛用于促进这种聚合/消息传递过程。

Relation-Learning方法

异类网络中的每条边都可以看作是一个三元组(u, l, v),由两个节点u, v∈v和一个边缘类型l∈TE(即。,实体和关系,用KG表示)。关系学习方法的目标是学习一个评分函数sl(u, v),该函数对任意三元组求值并输出一个标量来度量该三元组的可接受性。这种思想在KB嵌入中被广泛采用。由于已经有关于KB嵌入算法的调查[81],我们在这里只讨论最流行的方法,并强调它们与HNE的联系。

基准

未来方向

在这项工作中,我们对各种现有的HNE算法进行了全面的调研,并提供了基准数据集和基线实现,以方便今后在这方面的研究。尽管HNE已经在各种下游任务中表现出了强大的性能,但它仍处于起步阶段,面临着许多尚未解决的挑战。为了总结这项工作并启发未来的研究,我们现在简要地讨论一下当前HNE的局限性和几个可能值得研究的具体方向。

超越同质性。如式(1)所述,目前的HNE算法主要关注网络同质性作用。由于最近对同构网络的研究,研究位置和结构嵌入的组合,探索如何将这种设计原则和范式推广到HNE将是很有趣的。特别是在异构网络中,节点的相对位置和结构角色都可以在不同的元路径或元图下测量,这自然更具有信息性和多样性。然而,这样的考虑也带来了更困难的计算挑战。

超越准确性。大多数,如果不是全部,现有的研究主要集中在对不同的下游任务的准确性。进一步研究HNE的效率和可扩展性(用于大规模网络)、时间适应性(用于动态演化网络)、鲁棒性(用于对抗攻击)、可解释性、不确定性、公平性等将是非常有趣的。

超越节点嵌入。图级和子图级嵌入在同构网络上得到了广泛的研究,但在异构网络上却很少有研究。虽然诸如HIN2Vec[22]等现有的工作都在研究元路径的嵌入以改进节点的嵌入,但是图和子图级嵌入在异构网络环境中的直接应用仍然处于萌芽状态。

回顾KB嵌入。KB嵌入与其他HNE类型的区别主要在于节点和链接类型的数量不同。直接将KB嵌入到异构网络中不能考虑具有丰富语义的元路径,而将HNE直接应用到KB中由于元路径的数量呈指数增长而不现实。然而,研究这两组方法(以及两种类型的数据)之间的交集仍然很有趣。例如,我们如何将异构网络上的元路径和HNE在KB上嵌入转换的思想与更多的语义感知转换结合起来?我们如何设计基于截断随机游走的方法来包含高阶关系的知识库嵌入?

异构上下文建模。异构网络主要模拟不同类型的节点和链接。然而,现在的网络常常与丰富的内容相关联,这些内容提供了节点、链接和子网的上下文。因此,如何通过多模态内容和结构的集成来对多方面环境下的异构交互进行建模可能是一个具有挑战性但值得研究的领域。

理解局限性。虽然HNE(以及许多神经表示学习模型)已经在各个领域显示出了强大的性能,但值得了解其潜在的局限性。例如,与传统的网络挖掘方法(例如,路径计数、子图匹配、非神经或线性传播)相比,现代HNE算法何时能更好地工作?我们怎样才能把两个世界的优点结合起来呢?此外,虽然对同构网络数据的神经网络背后的数学机制(如平滑、低通滤波、不变和等变变换)进行了深入的研究,通过统一现有的HNE模型,本工作也旨在激发对HNE的能力和局限性的进一步理论研究。

成为VIP会员查看完整内容
0
85

台湾交通大学的Jen-Tzung Chien教授在WSDN 2020会议上通过教程《Deep Bayesian Data Mining》介绍了深度贝叶斯数据挖掘的相关知识,涵盖了贝叶斯学习、深度序列学习、深度贝叶斯挖掘和学习等内容。

Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度贝叶斯数据挖掘》)介绍了面向自然语言的深度贝叶斯挖掘和学习,包括了它的基础知识和进展,以及它无处不在的应用,这些应用包括语音识别、文档摘要、文本分类、文本分割、信息抽取、图像描述生成、句子生成、对话控制、情感分类、推荐系统、自动问答和机器翻译等。

从传统上,“深度学习”被认为是一个学习过程,过程中的推断和优化都使用基于实数的判别模型。然而,从大量语料中提取出的词汇、句子、实体、行为和文档的“语义结构”在数学逻辑或计算机程序中可能不能很好地被这种方式表达或正确地优化。自然语言的离散或连续潜在变量模型中的“分布函数”可能不能被正确分解或估计。

该教程介绍了统计模型和神经网络的基础,并聚焦于一系列先进的贝叶斯模型和深度模型,包括层次狄利克雷过程、中国餐馆过程、递归神经网络、长短期记忆网络、序列到序列模型、变分自编码器、生成式对抗网络、策略神经网络等。教程还介绍了增强的先验/后验表示。教程展示了这些模型是如何连接的,以及它们为什么适用于自然语言中面向符号和复杂模式的各种应用程序。

变分推断和采样被提出解决解决复杂模型的优化问题。词和句子的嵌入、聚类和联合聚类被语言和语义约束合并。针对深度贝叶斯挖掘、搜索、学习和理解中的不同问题,一系列的案例研究、任务和应用被提出。最后,教程指出一些未来研究的方向和展望。教程旨在向初学者介绍深度贝叶斯学习中的主要主题,激发和解释它对数据挖掘和自然语言理解正在浮现的重要性,并提出一种结合不同的机器学习工作的新的综合方法。

教程的内容大致如下:

  • 简介
    • 动机和背景
    • 概率模型
    • 神经网络
  • 贝叶斯学习
    • 推断和优化
    • 变分贝叶斯推断
    • 蒙特卡罗马尔科夫链推断
  • 深度序列学习
    • 深度非展开主题模型
    • 门递归神经网络
    • 贝叶斯递归神经网络
    • 记忆增强神经网络
    • 序列到序列学习
    • 卷积神经网络
    • 扩增神经网络
    • 基于Transformer的注意力网络
  • 深度贝叶斯挖掘和学习
    • 变分自编码器
    • 变分递归自编码器
    • 层次变分自编码器
    • 随机递归神经网络
    • 正则递归神经网络
    • 跳跃递归神经网络
    • 马尔科夫递归神经网络
    • 时间差分变分自编码器
    • 未来挑战和发展
  • 总结和未来趋势

完整教程下载

请关注专知公众号(点击上方蓝色专知关注) 后台回复“DBDM20” 就可以获取完整教程PDF的下载链接~

教程部分内容如下所示:

参考链接:

http://chien.cm.nctu.edu.tw/home/wsdm-tutorial/

-END- 专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~

点击“阅读原文”,了解注册使用专知

成为VIP会员查看完整内容
0
115

现实世界的大数据以自然语言文本的形式,在很大程度上是非结构化的、相互关联的、动态的。将如此庞大的非结构化数据转换为结构化知识是非常必要的。许多研究人员依赖于劳动密集型的标记和管理来从这些数据中提取知识,这可能是不可扩展的,特别是考虑到许多文本语料库是高度动态的和特定于域的。我们认为,大量的文本数据本身可能揭示了大量隐藏的模式、结构和知识。基于领域无关和领域相关的知识库,我们探索海量数据本身将非结构化数据转化为结构化知识的能力。通过将大量的文本文档组织成多维文本数据集,可以有效地提取和使用结构化的知识。在这次演讲中,我们介绍了一组最近开发的用于这种探索的方法,包括挖掘质量短语、实体识别和键入、多面分类构造以及多维文本立方体的构造和探索。结果表明,数据驱动方法是将海量文本数据转化为结构化知识的一个有前途的方向。

成为VIP会员查看完整内容
0
67

讲座题目

从海量文本中构建和挖掘异构信息网络:Constructing and Mining Heterogeneous Information Networks from Massive Text

讲座简介

真实世界的数据主要以非结构化文本的形式存在。数据挖掘研究的一个重大挑战是开发有效且可伸缩的方法,将非结构化文本转换为结构化知识。根据我们的设想,将这些文本转换成结构化的异构信息网络是非常有益的,在这种网络上,可以根据用户的需要生成可操作的知识。在本教程中,我们将全面概述最近在这方面的研究和发展。首先,我们介绍了一系列有效的方法,从海量的、特定于领域的文本语料库中构建异构信息网络。然后讨论了基于用户需求挖掘文本丰富网络的方法。具体来说,我们关注的是可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法可以处理各种文本。在真实的数据集(包括新闻文章、科学出版物和产品评论)上,我们进一步展示了如何构建信息网络,以及如何帮助进一步的探索性分析。

讲座嘉宾

Jingbo Shang(尚景波),伊利诺伊大学香槟分校计算机科学系博士生。他的研究重点是用最少的人力从大量文本语料库中挖掘和构建结构化知识。他的研究获得了多项著名奖项的认可,包括Yelp数据集挑战大奖(2015)、谷歌结构化数据和数据库管理博士研究金(2017-2019)。尚先生在大型会议(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有丰富的经验。

成为VIP会员查看完整内容
0
36

题目: TextCube: Automated Construction and Multidimensional Exploration

简介: 当今社会沉浸在大量文本数据中,从新闻文章到社交媒体,研究文献,病历和公司报告。数据科学和工程学的一大挑战是开发有效且可扩展的方法,以从海量文本数据中提取结构和知识,以满足各种应用的需要,而无需广泛的人工注释。在本教程中,我们将展示TextCube提供了一种可以满足此类信息需求的关键信息组织结构。我们概述了一组最近开发的数据驱动方法,这些方法可帮助从大规模的特定于领域的文本语料库自动构建TextCube,并表明如此构建的TextCube将增强各种应用程序的文本探索和分析。我们专注于可扩展,弱监督,独立于域,与语言无关且有效的新TextCube构建方法(即从各种领域的大型语料库生成高质量的TextCube)。我们将用真实的数据集演示如何构造TextCube来协助对大量文本语料库进行多维分析。

嘉宾介绍: 韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利诺伊州香槟分校博士。 他的研究专注于以最少的人力从大量文本语料库中挖掘和构建结构化知识。 他的研究获得了多个著名奖项的认可,包括Yelp数据集挑战赛的大奖(2015年),Google博士在结构化数据和数据库管理领域的奖学金(2017-2019年)。

成为VIP会员查看完整内容
0
21
小贴士
相关论文
Younjoo Seo,Andreas Loukas,Nathanaël Perraudin
4+阅读 · 2019年6月5日
Ye Liu,Hui Li,Alberto Garcia-Duran,Mathias Niepert,Daniel Onoro-Rubio,David S. Rosenblum
20+阅读 · 2019年3月13日
Junlang Zhan,Hai Zhao
3+阅读 · 2019年3月1日
Ivana Balazevic,Carl Allen,Timothy M. Hospedales
5+阅读 · 2018年8月28日
Guangneng Hu,Yu Zhang,Qiang Yang
11+阅读 · 2018年4月20日
Tran Dang Quang Vinh,Tuan-Anh Nguyen Pham,Gao Cong,Xiao-Li Li
12+阅读 · 2018年4月18日
Sven Schmit,Carlos Riquelme
6+阅读 · 2018年3月28日
Wenlin Wang,Zhe Gan,Wenqi Wang,Dinghan Shen,Jiaji Huang,Wei Ping,Sanjeev Satheesh,Lawrence Carin
5+阅读 · 2018年2月26日
Avik Ray,Joe Neeman,Sujay Sanghavi,Sanjay Shakkottai
3+阅读 · 2018年2月24日
Joel A. Tropp,Alp Yurtsever,Madeleine Udell,Volkan Cevher
4+阅读 · 2018年1月2日
Top