CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向

2018 年 6 月 10 日 中国人工智能学会
CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向

言:

现实中的大数据常常表示为一种非结构化,交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注,用有监督的方法去抽取知识。但是,这些方法不具有普适性,难以扩展,进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合,我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。

——韩家炜




 2018中国人工智能大会(CCAI2018)将于7月28日至29日在深圳举行,韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究,发表题为《基于海量文本数据的结构化知识抽取:数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲,探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。


适逢盛会,心向往之。会前,我们整理了韩教授以往关于大数据挖掘的相关观点,方便大家一睹为快。



韩家炜现为美国伊利诺伊大学香槟分校计算机系教授,ACM会士和IEEE会士,被称为“数据挖掘第一人”。他在数据挖掘领域有重要的学术影响力,发表论文600余篇,出版多部专著。曾担任国际知名会议KDD、SDM和ICDM程序委员会主席,创办了学术期刊ACM TKDD并担任主编。曾荣获2004 ACM SIGKDD创新奖、2005 IEEE计算机分会技术成就奖、2009 IEEE计算机协会的M. Wallace McDowell奖。他的专著Data Mining: Concepts and Techniques被公认为数据挖掘领域的经典教材。


大数据挖掘,数据结构化首当其冲

大数据(Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模十分巨大,以至于无法在合理时间内通过人工截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。


我们这个时代,由于互联网的发展,产生了大量数据。这些数据中绝大部分(超过 80%)都是以文本等无结构或半结构的方式存储。所以,挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据,也就是说,要实现从Big Data 到Actionable Knowledge的转变。

 

韩家炜认为,要将无结构的 Big Data 变成有用的 Knowledge,首先要做的就是将数据结构化。他提出两种结构化数据的形式,一种是异质网络(Heterogeneous Network),另一种是多维文本立方体(Multi-dimensional Text Cube)。由结构化数据生成 Knowledge 已经证明是很强大的,但是如何将原始无结构的数据变成有结构的数据(Network 或 Text Cube)则是非常困难的。


在 Network/Text Cube 到 Knowledge 的问题上,韩家炜等人已经做了很多研究工作,也已经由此获得了很多奖项;在无结构文本数据到有结构 Network/Text Cube 的路上他们也做出了许多尝试和成果,现在仍在不断求索中。


数据挖掘三部曲

韩家炜认为,数据挖掘的研究工作可以总结为三部曲:


(1)从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构,这步工作就是将这些数据挖掘出来

(2)将文本数据转化为有类型的 Network/Text Cube。将文本数据变成有结构、有类型的数据(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知识。最后一步才是挖掘。

此外,在研究的推进过程中,他们也曾遇到了很多困难。


一是领域限制。用一般语料获得的实体标注在特定领域、动态领域或者新兴的领域无法很好的工作。


二是名称的歧义性。多个实体可能共享同一个表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球队名等)。


三是上下文稀疏。对同一个关系可能有许多种表示方法(想想中文有多少中表示体育比赛结果的方法)


虽然数据挖掘已经有了成型的结构,但仍有重重困难需要克服。韩教授曾说:“在这条路上,我们现在只是找到了几个口子可以往前走。现在这还不是一条大路,只是一条小路。要想变成一条康庄大道,需要大家共同努力。这条路通宽了,将来我们就可以从大量的无结构的文本,变成大量的有用的知识。”


在即将到来的盛夏,韩家炜教授作为中国人工智能大会的特邀嘉宾,将会介绍他最近的研究:如何借助大规模文本数据自身的力量去做大规模的知识抽取?主要包括关键短语抽取,基于远监督的实体识别和关系分类,基于模式的信息提取方法,多元分类的自动发现以及多维文本数据集的构建等方法。在CCAI2018的报告中,韩家炜教授将证明数据挖掘、机器学习和自然语言处理三个技术进行融合是一个“非常重要且极有前途”的方向。

 

在CCAI2018,跟随开路先锋韩家炜教授,一起踏上这条非常重要且极有前途的路吧!

请输入标题

多大会详情、参会细节,请关注大会官网:http://ccai2018.caai.cn/

· end ·


点击“阅读原文”了解大会详情


登录查看更多
8

相关内容

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。 韩家炜主页:https://hanj.cs.illinois.edu/

实际系统往往由大量类型各异、彼此交互的组件构成.当前大多数工作将其建模为同质信息网络,并未对网络中不同类型的对象及链接加以区分.近年来,越来越多的研究者将这些互联数据建模为由不同类型节点和边构成的异质信息网络,并利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.随着大数据时代的到来,异质信息网络自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.本文对异质信息网络分析与应用进行了全面综述. 除介绍异质信息网络领域的基本概念外,重点聚焦基于元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用三个方面的最新研究进展,并对未来的发展方向进行了展望.

成为VIP会员查看完整内容
0
40

现实世界的大数据以自然语言文本的形式,在很大程度上是非结构化的、相互关联的、动态的。将如此庞大的非结构化数据转换为结构化知识是非常必要的。许多研究人员依赖于劳动密集型的标记和管理来从这些数据中提取知识,这可能是不可扩展的,特别是考虑到许多文本语料库是高度动态的和特定于域的。我们认为,大量的文本数据本身可能揭示了大量隐藏的模式、结构和知识。基于领域无关和领域相关的知识库,我们探索海量数据本身将非结构化数据转化为结构化知识的能力。通过将大量的文本文档组织成多维文本数据集,可以有效地提取和使用结构化的知识。在这次演讲中,我们介绍了一组最近开发的用于这种探索的方法,包括挖掘质量短语、实体识别和键入、多面分类构造以及多维文本立方体的构造和探索。结果表明,数据驱动方法是将海量文本数据转化为结构化知识的一个有前途的方向。

成为VIP会员查看完整内容
0
63

报告主题:图神经网络 (GNN) 算法及其应用

报告摘要:图神经网络将深度学习方法延伸到非欧几里得的图数据上,大大提高了图数据应用的精度。在这个报告中,我将简单回顾一下图卷积网络(GCN)并探讨如何提高GCN在图数据上的表示学习能力。我们的研究发现几个巧妙、简单的方法可以有效的提高GCN的表示能力,该方法可以等价表示为图注意力网络(GAT)。该方法的有效性在包括阿里巴巴等多个超大规模数据集上得到验证。

邀请嘉宾:唐杰,清华大学计算机系教授、系副主任,获杰青。研究兴趣包括:数据挖掘、社交网络和知识图谱。发表论文200余篇,引用10000余次(个人h-指数57)。主持研发了研究者社会网络挖掘系统AMiner,吸引了220个国家/地区1000多万独立IP访问。曾担任国际期刊ACM TKDD的执行主编和国际会议CIKM’16、WSDM’15的PC Chair、KDD’18大会副主席。作为第1完成人获北京市科技进步一等奖、中国人工智能学会科技进步一等奖、KDD杰出贡献奖。

成为VIP会员查看完整内容
2019-GNN-a-review-唐杰.pdf
0
70

论坛嘉宾:沈华伟 中国科学院计算技术研究所 研究员

报告主题:图卷积神经网络及其应用

报告摘要:卷积神经网络在处理图像、语音、文本等具有较好空间结构的数据时展现出了很好的优势。然而,卷积神经网络不能直接应用于图(Graph)这类空间结构不规则的数据上。近年来,研究人员开始研究如何将卷积神经网络迁移到图数据上,涌现出ChevNet、MoNet、GraphSAGE、GCN、GAT等一系列方法,在基于图的半监督分类和图表示学习等任务中表现出很好的性能。报告首先梳理和回顾该方向的主要研究进展和发展趋势,进而介绍报告人近期在图卷积神经网络方面的一些研究工作(ICLR’19; IJCAI’19)。

嘉宾简介:沈华伟,博士,中国科学院计算技术研究所研究员,中国中文信息学会社会媒体处理专委会副主任。主要研究方向:社交网络分析、网络数据挖掘。先后获得过CCF优博、中科院优博、首届UCAS-Springer优博、中科院院长特别奖、入选首届中科院青年创新促进会、中科院计算所“学术百星”。2013年在美国东北大学进行学术访问。2015年被评为中国科学院优秀青年促进会会员。获得国家科技进步二等奖、北京市科学技术二等奖、中国电子学会科学技术一等奖、中国中文信息学会钱伟长中文信息处理科学技术一等奖。出版个人专/译著3部,在网络社区发现、信息传播预测、群体行为分析等方面取得了系列研究成果,发表论文100余篇。担任PNAS、IEEE TKDE、ACM TKDD等10余个学术期刊审稿人和KDD、WWW、SIGIR、AAAI、IJCAI、CIKM、WSDM等20余个国际学术会议的程序委员会委员。

成为VIP会员查看完整内容
0
47
小贴士
相关资讯
实验室论文被 ICDM 2019录用
inpluslab
20+阅读 · 2019年8月20日
【学科发展报告】多媒体分析
中国自动化学会
3+阅读 · 2018年9月29日
CCAI2018演讲实录丨张民:自然语言处理方法与应用
中国人工智能学会
4+阅读 · 2018年8月13日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
54+阅读 · 2018年7月13日
CCAI2018 | 大规模文本数据挖掘的新方向
机器学习算法与Python学习
3+阅读 · 2018年6月23日
杉山将:弱监督机器学习的研究进展 | CCAI 2017
深度学习大讲堂
4+阅读 · 2017年8月21日
相关VIP内容
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
21+阅读 · 2019年11月12日
相关论文
Meta-Learning to Cluster
Yibo Jiang,Nakul Verma
12+阅读 · 2019年10月30日
Xiaotong Zhang,Han Liu,Qimai Li,Xiao-Ming Wu
7+阅读 · 2019年6月4日
Transfer Adaptation Learning: A Decade Survey
Lei Zhang
29+阅读 · 2019年3月12日
Yixing Zhu,Jun Du
4+阅读 · 2018年11月30日
Ting-Wu Chin,Chia-Lin Yu,Matthew Halpern,Hasan Genc,Shiao-Li Tsao,Vijay Janapa Reddi
4+阅读 · 2018年10月4日
Jianfeng Gao,Michel Galley,Lihong Li
25+阅读 · 2018年9月21日
David Tolpin
5+阅读 · 2018年5月5日
Keze Wang,Xiaopeng Yan,Dongyu Zhang,Lei Zhang,Liang Lin
6+阅读 · 2018年3月27日
Yan Li,Junge Zhang,Kaiqi Huang,Jianguo Zhang
5+阅读 · 2018年3月13日
Hao Chen,Yali Wang,Guoyou Wang,Yu Qiao
4+阅读 · 2018年3月5日
Top